OpenAI、4oの画像生成機能を公開

(openai.com)

12 ポイント投稿者 GN⁺ 2025-03-26 | 3件のコメント | WhatsAppで共有

OpenAIは、画像生成は言語モデルの中核機能の1つであるべきだと長年考えており、このビジョンに基づいて、最も洗練され強力な画像生成器をGPT‑4oに統合した
GPT‑4oの画像生成は、単に美しい画像を超えて、実際に有用で価値ある成果物を生み出す
精密で正確かつ、フォトリアリズム水準の高品質画像を生成できる
マルチモーダル機能を標準搭載しており、言語・画像・文脈を組み合わせたビジュアルコンテンツ制作が可能

実用的な画像生成機能

人類は古代の壁画から現代のインフォグラフィックに至るまで、視覚的イメージを使って情報を伝え、説得し、分析してきた
従来の生成モデルは幻想的または印象的な画像は作れても、実用的な情報伝達用の画像は苦手だった
GPT‑4oの画像生成は、ロゴやダイアグラムのように意味を正確に伝える画像生成に強みを持つ
テキストの正確なレンダリング、ユーザーとの対話文脈の活用、アップロードされた画像に基づく生成などの高度な機能を含む
これらの機能は、ユーザーが望む画像をより正確に作れるよう支援する

向上した画像生成能力

オンライン上の画像とテキストの結合分布を学習し、画像と言語、画像同士の関係を理解する
学習後の補正プロセスを経て視覚的流暢性が高まり、有用で一貫性のある画像生成が可能になった

テキストレンダリング機能

画像は数千語分の情報を含められるが、適切な位置に置かれたわずかなテキストが意味を強化できる
GPT‑4oは、画像に精密な記号やテキストを組み合わせ、視覚的コミュニケーションツールとして活用できる

対話型画像生成

GPT‑4oは画像生成を本来機能として統合しており、対話の流れの中で画像の生成と修正が可能
例: ゲームキャラクターデザインでは、外観を継続的に維持しながら反復的に修正できる

指示内容の正確な反映

GPT‑4oは詳細なプロンプトを正確に反映する
他システムは約5〜8個のオブジェクトまで処理可能だが、GPT‑4oは最大10〜20個のオブジェクトを一貫して生成できる
オブジェクトの属性や関係の表現をより正確に維持する

文脈ベースの学習

ユーザーがアップロードした画像を分析し、その画像の詳細を画像生成に反映する

世界知識との接続

GPT‑4oはテキストと画像の間の知識を結び付け、よりスマートで効率的な画像生成を可能にする

フォトリアリズムと多様なスタイル

多様な画像スタイルで学習しており、リアルな画像生成とスタイル変換が可能

モデルの限界

完璧なモデルではない
初期リリース後も、ユーザーフィードバックとデータに基づいて継続的に改善していく予定

安全性確保への取り組み

ゲーム開発、歴史探究、教育など有益な創作活動を促進しつつ、強力な安全基準を維持
不適切な画像生成を防ぐため、厳格なポリシーを適用中
C2PAおよび内部検索ツールによる透明性の確保
- GPT‑4oが生成したすべての画像にはC2PAメタデータが含まれ、出所を明確にする
- 内部検索ツールを活用し、技術的属性に基づいて画像の出所を確認できる
不適切な画像の遮断
- 児童性的画像やディープフェイクなど、ポリシー違反となる画像生成リクエストをブロックする
- 実在人物を含む画像については、より強化された制限を適用
- ヌードや暴力的画像に対する厳格な事前遮断システムを運用
推論ベースの安全性強化
- 人間が作成したポリシー仕様書に基づいて動作する、推論ベースのLLMを訓練した
- ポリシーの曖昧さを把握して解決するために使われ、マルチモーダル技術と組み合わせて、入力テキストと出力画像の両方がポリシー基準に合うよう調整する

提供状況

本日からPlus、Pro、Team、Freeユーザーにデフォルトの画像生成機能として提供される
EnterpriseとEduは近日対応予定
Soraでも利用可能で、既存のDALL·Eモデルには別個のGPTからアクセスできる
API経由の画像生成機能は数週間以内に開発者向けへ提供予定
ユーザーは希望する画像の説明だけで生成でき、比率、色（hexコード）、背景の透明化有無なども指定可能
高精細な画像生成のため、レンダリング時間は最大1分かかる場合がある

3件のコメント

j2sus91 2025-03-26

まだfreeでは見えないようですが、Plus、Pro、Teamだけに公開されているんですよね？

laeyoung 2025-03-26

Proではチャット欄の下にある ... を押してみると、「画像を作成（更新済み）」となっているので、これのようですね。
ただ、Best of # は表示されないので、適用されていないのか、されているのか分かりにくいですね。

GN⁺ 2025-03-26

Hacker Newsの意見

新しい画像生成方式はトークンを用い、拡散の代わりにピクセル空間で推論を行う
- たとえば、空の三目並べがあるメモ帳を描かせて最初の一手を置かせ、その後はユーザーが手を打つ形で進められる
- 画風を変更したり、「昼を夜に変える」「帽子をかぶせる」など、情報を保持した変換も可能
- モデルの解像度には制限があるが、この分野の進歩によって、アプリを画像として段階的に設計し、コードを書ける可能性がある
- モデルは外部画像から「推論」を続けられるため、元の生成物が良くなくても改善できる
- モデルが高速化すれば、LLMイベントに基づいてアプリの次のフレームを生成する、真の生成UIを想像できる
- 拡散モデルでもこれに似た作業をより高速に行える可能性がある
4o Image Generationの紹介: 最も先進的な画像生成器である
- GoogleのGemini 2.5: 最も知的なAIモデルである
- Gemini 2.0の紹介: 最も高性能なAIモデルである
- こうしたトレンドが廃れ、Appleが効果的なものを使い、他社が新しい用語をコピーする流れになることを願う
なぜo1とのベンチマークを追加しないのか気になる
OpenAIのGPT-4o Image Generationライブ配信は遅く、画像1枚あたり約30秒かかる
- Sam Altmanは「遅いが、生成された画像にはその価値がある」と説明している
- 拡散アプローチではなく、元のDALL-Eに似た形で画像トークンを生成してデコードする
- GoogleのGeminiは数秒で画像を生成・編集できる
- まだAPIはなく、遅いため、競合の$0.03+/画像よりコストが高くなると予想される
試してみたところ、娘の誕生日招待状を一発で生成できた
- 欲しい要素とスタイルに正確に合わせてくれた
- 日付や場所などの詳細を追加するよう頼んだときも、うまく対応した
- 以前のモデルは半分にも及ばなかった
過飽和なCG/漫画スタイルではないのがうれしい
与えられたプロンプトが4oまたはDALL-Eのどちらで処理されたのか確認する方法があるのか気になる
- 現在のプロンプトはまだ後者によって処理されているようだ
- 長期計画は4oへ完全移行し、DALL-Eを別タブへ移すことだという
ワイングラスのテストでは依然として失敗する
「Best of 8」タグ付きの多くの画像が、どの程度選別されたものなのか気になる
- 無料の3枚の画像のうち2枚は印象的で、1枚は失敗だった
新しいモデルでの反復編集の例がある
- 以前のモデルよりずっと良くなったが、それでも指が多すぎたり、腕が多すぎる体を生成してしまう