- OpenAIが先月ChatGPTに導入した画像生成機能は、公開初週に7億枚以上の画像生成を記録した
- これをAPIへ拡張したgpt-image-1モデルが公開され、開発者や企業が自社プラットフォームに統合可能になった
- 幅広い業界でデザイン、ロゴ制作、マーケティング、動画編集などに活用されている
- 安全機能を強化しており、API利用時は基本的に顧客データを学習に使用しない
- 品質に応じて画像1枚あたりおおよそ**$0.02(低)、$0.07(中)、$0.19(高)**
APIを通じて画像生成モデルを公開
- OpenAIは、ChatGPTで人気を集めた画像生成機能をAPIに拡張し、gpt-image-1モデルを公開した
- このモデルは、多様なスタイルの生成、テキストの精密なレンダリング、ユーザー指定ガイドラインへの忠実な反映、世界知識の活用が可能
- 企業やスタートアップが、デザイン、EC、教育、ゲームなどさまざまな分野で活用している
主なユースケース
- Adobe: FireflyとExpressアプリを通じて、多様な美的スタイルを試せる画像生成機能を提供
- Airtable: AIを活用し、大規模なワークフローでクリエイティブな生産性を向上
- Figma:
gpt-image-1を通じて画像生成および編集機能をプラットフォームに統合し、ユーザーがアイデアを視覚的に探れるようにしている
- Canvaはgpt-image-1をCanva AIとMagic Studioに統合し、デザイン生成および編集機能の拡張を進めている
- たとえば、手描きの絵を精巧なグラフィック要素に変換したり、高精度な編集を可能にしたりできる
- GoDaddyはロゴ生成および編集に画像生成を試験導入している
- 背景除去、タイポグラフィ生成、ブランドアイデンティティを反映したコンテンツ制作が可能
- GoDaddy Airo®との連携により、ソーシャルメディア向けコンテンツやマーケティング素材の制作も支援
- HubSpotはマーケティングおよび営業資料の制作に向けて画像生成機能を試験導入している
- デザイナーがいなくても高品質な画像を制作できる可能性があり、メール、ソーシャルメディア、ランディングページに活用できる
- Gamma: 毎日500万枚以上のAI画像を生成し、プレゼンテーションやWebサイト制作を支援している
- HeyGen: アバター生成および編集機能を改善し、ユーザーによりパーソナライズされた体験を提供
- OpusClip: YouTubeクリエイター向けにクリックを促すサムネイルを生成
- Instacartは画像生成APIを使用して、レシピや買い物リストに画像を追加するテストを進めている
- invideoはgpt-image-1を導入し、テキスト生成の向上、精密な編集コントロール、スタイルガイドの提供機能を追加した
安全性
- gpt-image-1は、ChatGPTで使用されている4o画像生成と同じ安全対策を採用している
- 有害な画像生成を防止し、生成画像にはC2PAメタデータを含む
moderationパラメータによりフィルタリング感度の調整が可能(デフォルト: auto、低感度: low)
- OpenAIはAPI顧客データでモデルを学習せず、入力/出力はAPI利用ポリシーに従う
価格体系
- テキスト入力トークン: 100万トークンあたり$5
- 画像入力トークン: 100万トークンあたり$10
- 画像出力トークン: 100万トークンあたり$40
- 品質に応じて画像1枚あたりおおよそ$0.02(低)、$0.07(中)、$0.19(高)のコストが発生
始め方
- gpt-image-1はグローバルなImages APIで利用可能で、Responses APIにも近日対応予定
- 一部の開発者は利用のために組織認証手続きを求められる場合がある
- Playgroundで機能をテストし、ガイド文書を通じて始められる
1件のコメント
Hacker Newsのコメント
昨日は、政府や軍関連の作業に対する拒否率が非常に高いことに不満を述べた。これは請負業者がCNで開発されたオープンソースモデルを使うことにつながり、作業が損なわれる可能性がある
興味本位で、各品質タイプについて同じプロンプトを生成した。
Auto、low、medium、highPlaygroundで5枚の画像を生成した。1枚はテキストプロンプトのみを使い、残り4枚はスマートフォンの画像を使った。家族グループチャット用のスタジオジブリ風ポートレートに$0.85使ったが、顧客向け製品に使うには高すぎる
何百枚、あるいは何千枚もの画像を生成する必要があるアプリケーションが気になる。家族写真をジブリ風にするのは好きだが、大量に作る必要はない。画像生成を使うたびに単発の作業で、ChatGPT UIでやるので十分満足だった
価格面では、このAPIは参照を提供して価値を得ない限り、価値を正当化するのは難しそうだ。生成される
medium1024x1024は1画像あたり$0.04で、Imagen 3やFlux 1.1 Proと同じようなコスト帯に属する。新しいPlaygroundでテストしたところ、medium画像はこの2つの競合モデルより品質が低く、それでも生成に15秒以上かかる"動画編集: invideoは、何百万人ものユーザーがAIを使ってアイデアを動画に変換できるようにしている。gpt-image-1の統合により、プラットフォームは現在、改善されたテキスト生成、きめ細かな編集制御、高度なスタイル指示を提供している"
gpt-image-1の利用料金はトークン単位で課金され、テキストと画像のトークンには別々の価格が設定されている
興味のある人のために言うと、これは拡散ベースではなくLLMベースだ。つまり、テキストプロンプトへの追従精度がはるかに高い
GoDaddyは、顧客が簡単に編集可能なロゴを生成できるように、画像生成の統合を積極的に試している
価格設定における「画像トークン」が何を表しているのか、分かる人はいる?