1 ポイント 投稿者 GN⁺ 2025-04-25 | 1件のコメント | WhatsAppで共有
  • OpenAIが先月ChatGPTに導入した画像生成機能は、公開初週に7億枚以上の画像生成を記録した
  • これをAPIへ拡張したgpt-image-1モデルが公開され、開発者や企業が自社プラットフォームに統合可能になった
  • 幅広い業界でデザイン、ロゴ制作、マーケティング、動画編集などに活用されている
  • 安全機能を強化しており、API利用時は基本的に顧客データを学習に使用しない
  • 品質に応じて画像1枚あたりおおよそ**$0.02(低)、$0.07(中)、$0.19(高)**

APIを通じて画像生成モデルを公開

  • OpenAIは、ChatGPTで人気を集めた画像生成機能をAPIに拡張し、gpt-image-1モデルを公開した
  • このモデルは、多様なスタイルの生成テキストの精密なレンダリングユーザー指定ガイドラインへの忠実な反映世界知識の活用が可能
  • 企業やスタートアップが、デザイン、EC、教育、ゲームなどさまざまな分野で活用している

主なユースケース

  • Adobe: FireflyとExpressアプリを通じて、多様な美的スタイルを試せる画像生成機能を提供
  • Airtable: AIを活用し、大規模なワークフローでクリエイティブな生産性を向上
  • Figma: gpt-image-1を通じて画像生成および編集機能をプラットフォームに統合し、ユーザーがアイデアを視覚的に探れるようにしている
  • Canvaはgpt-image-1をCanva AIとMagic Studioに統合し、デザイン生成および編集機能の拡張を進めている
    • たとえば、手描きの絵を精巧なグラフィック要素に変換したり、高精度な編集を可能にしたりできる
  • GoDaddyはロゴ生成および編集に画像生成を試験導入している
    • 背景除去タイポグラフィ生成ブランドアイデンティティを反映したコンテンツ制作が可能
    • GoDaddy Airo®との連携により、ソーシャルメディア向けコンテンツマーケティング素材の制作も支援
  • HubSpotはマーケティングおよび営業資料の制作に向けて画像生成機能を試験導入している
    • デザイナーがいなくても高品質な画像を制作できる可能性があり、メール、ソーシャルメディア、ランディングページに活用できる
  • Gamma: 毎日500万枚以上のAI画像を生成し、プレゼンテーションやWebサイト制作を支援している
  • HeyGen: アバター生成および編集機能を改善し、ユーザーによりパーソナライズされた体験を提供
  • OpusClip: YouTubeクリエイター向けにクリックを促すサムネイルを生成
  • Instacartは画像生成APIを使用して、レシピや買い物リストに画像を追加するテストを進めている
  • invideoはgpt-image-1を導入し、テキスト生成の向上精密な編集コントロールスタイルガイドの提供機能を追加した

安全性

  • gpt-image-1は、ChatGPTで使用されている4o画像生成と同じ安全対策を採用している
  • 有害な画像生成を防止し、生成画像にはC2PAメタデータを含む
  • moderationパラメータによりフィルタリング感度の調整が可能(デフォルト: auto、低感度: low)
  • OpenAIはAPI顧客データでモデルを学習せず入力/出力はAPI利用ポリシーに従う

価格体系

  • テキスト入力トークン: 100万トークンあたり$5
  • 画像入力トークン: 100万トークンあたり$10
  • 画像出力トークン: 100万トークンあたり$40
  • 品質に応じて画像1枚あたりおおよそ$0.02(低)、$0.07(中)、$0.19(高)のコストが発生

始め方

  • gpt-image-1はグローバルなImages APIで利用可能で、Responses APIにも近日対応予定
  • 一部の開発者は利用のために組織認証手続きを求められる場合がある
  • Playgroundで機能をテストし、ガイド文書を通じて始められる

1件のコメント

 
GN⁺ 2025-04-25
Hacker Newsのコメント
  • 昨日は、政府や軍関連の作業に対する拒否率が非常に高いことに不満を述べた。これは請負業者がCNで開発されたオープンソースモデルを使うことにつながり、作業が損なわれる可能性がある

    • 今日は、その分野で働く企業向けに、ほとんどコンテンツ検閲のないAPIアクセス層があることを知った。このアクセス層の申請方法は分からないが、すでにこれを使っている防衛請負業者4社と話をした
  • 興味本位で、各品質タイプについて同じプロンプトを生成した。Autolowmediumhigh

    • プロンプト: "かわいい犬がかわいい猫を抱いている"
    • 比較のために、DALL:E 3の画像をいくつかコメントで示した
  • Playgroundで5枚の画像を生成した。1枚はテキストプロンプトのみを使い、残り4枚はスマートフォンの画像を使った。家族グループチャット用のスタジオジブリ風ポートレートに$0.85使ったが、顧客向け製品に使うには高すぎる

  • 何百枚、あるいは何千枚もの画像を生成する必要があるアプリケーションが気になる。家族写真をジブリ風にするのは好きだが、大量に作る必要はない。画像生成を使うたびに単発の作業で、ChatGPT UIでやるので十分満足だった

  • 価格面では、このAPIは参照を提供して価値を得ない限り、価値を正当化するのは難しそうだ。生成されるmedium 1024x1024は1画像あたり$0.04で、Imagen 3やFlux 1.1 Proと同じようなコスト帯に属する。新しいPlaygroundでテストしたところ、medium画像はこの2つの競合モデルより品質が低く、それでも生成に15秒以上かかる

    • モデルのプロンプトは従来のモデルよりかなり異なり、難しい。従来の画像向けトリックは基本的に機能せず、かなりのプロンプト補強なしにうまく動かすのは難しい
  • "動画編集: invideoは、何百万人ものユーザーがAIを使ってアイデアを動画に変換できるようにしている。gpt-image-1の統合により、プラットフォームは現在、改善されたテキスト生成、きめ細かな編集制御、高度なスタイル指示を提供している"

    • これが動画も何らかの形で処理するという意味なのか気になる
  • gpt-image-1の利用料金はトークン単位で課金され、テキストと画像のトークンには別々の価格が設定されている

    • テキスト入力トークン(プロンプトテキスト): 1Mトークンあたり$5
    • 画像入力トークン(入力画像): 1Mトークンあたり$10
    • 画像出力トークン(生成画像): 1Mトークンあたり$40
    • 実際には、低品質・中品質・高品質の正方形画像1枚あたり、それぞれおよそ$0.02、$0.07、$0.19に相当する
    • スタートアップにとってはやや高価だ
  • 興味のある人のために言うと、これは拡散ベースではなくLLMベースだ。つまり、テキストプロンプトへの追従精度がはるかに高い

    • 例えば、画像生成アプリのユーザー(私を含む)は、カンガルーの袋の中にいる人の写真を作ろうとしていた
    • どんなプロンプトを使っても動かなかった
    • この新しいモデルは一発でできた
  • GoDaddyは、顧客が簡単に編集可能なロゴを生成できるように、画像生成の統合を積極的に試している

    • 1〜2年前にDiscordで、GoDaddyの顧客生成アイコンの仕事をしている人に会ったのを覚えている。その規模のカスタムモデルはgpt-image-1に置き換えられる可能性がある
  • 価格設定における「画像トークン」が何を表しているのか、分かる人はいる?

    • 固定サイズの画像ブロックなのか気になる