ChatGPT Images 2.0を公開
(openai.com)- OpenAIが画像生成モデルの次世代版を公開。紹介文そのものを文字で書かず、Images 2.0で生成した画像内のテキストだけで紹介
- 複雑な視覚作業と精密なテキストレンダリングを含む、すぐに使える成果物の生成に重点
- 初の思考(thinking)機能を備えた画像モデルで、ウェブ検索、複数画像の同時生成、出力物そのものの検証が可能
- 日本語、中国語、ヒンディー語、ベンガル語など非ラテン文字のレンダリング性能が大幅に向上し、多言語デザイン制作で実用的
- 3:1から1:3までの柔軟なアスペクト比対応で、バナー、ポスター、モバイル画面など多様なフォーマットに即応
- レンダリングツールから戦略的デザインシステムへの転換を掲げ、ChatGPT・Codex・API全体で利用可能
新しい画像生成の時代
- 画像を単なる装飾ではなくひとつの言語と定義し、仕組みの説明、雰囲気づくり、アイデア検証、主張の伝達などの役割を担う
- 1年前にリリースしたChatGPT Imagesが、AI画像は美しく実用的になり得ることを証明したのに続き、Images 2.0は複雑な視覚作業を精密に処理する次世代モデル
- 細かな指示を忠実に反映し、オブジェクトの正確な配置や関係表現、密集したテキストレンダリングで飛躍的に向上
- 構図と視覚的センスに優れ、成果物がAI生成ではなく意図的なデザインのように感じられる水準
- さまざまな言語で正確に動作し、拡張された視覚的・世界知識を活用して少ないプロンプトでもより賢い画像生成が可能
- このモデルはOpenAIの推論モデルの知能と視覚世界の理解を組み合わせ、画像生成を単なるレンダリングから戦略的デザインへ、ツールからビジュアルシステムへと転換
- 本日からChatGPT、Codex、APIの全ユーザーに提供
より高い精度と制御性
- Images 2.0は画像生成において前例のない具体性と忠実度を提供
- より精巧な画像を構想するだけでなく、それを効果的に実装し、指示への準拠・要求詳細の保持・微細要素のレンダリングに強み
- 既存の画像モデルが苦手としていた小さなテキスト、アイコン、UI要素、密集構成、微妙なスタイル制約を最大2K解像度で処理
- 「だいたい似た画像」ではなく、実際にそのまま使える成果物を生成
多言語テキスト対応の強化
- 従来モデルは英語およびラテン文字言語で一貫した性能を示していたが、複雑または密集したテキストでは非ラテン文字の処理が不十分だった
- Images 2.0は多言語理解力の向上とともに、とくに日本語、中国語、ヒンディー語、ベンガル語の非ラテン文字レンダリングで大きく改善
- 非英語テキストを正確にレンダリングするだけでなく、言語的にも自然に流れる成果物を生成可能
- 単純なラベル翻訳を超え、言語がデザインの一部であるポスター、説明資料、ダイアグラム、漫画などでも視覚的一貫性を維持
- ユーザーが実際に使う言語でビジュアルを作成でき、グローバルでの活用度が向上
スタイルの精緻さと写実性
- Images 2.0は多様な視覚スタイルにわたる忠実度が大幅に向上
- 写真の特徴的要素(写実性を高める微細な欠点を含む)、映画のスチル、ピクセルアート、漫画など独自の視覚言語の質感・照明・構図・細部で一貫性を改善
- 要求されたスタイルを近似するレベルではなく、忠実に反映した成果物を生成
- ゲームのプロトタイピング、ストーリーボード、マーケティングクリエイティブ、特定メディアやジャンル向けアセット制作にとくに有用
柔軟なアスペクト比対応
- 3:1(横長)から1:3(縦長)まで幅広いアスペクト比に対応
- ワイドバナー、プレゼンテーションスライド、ポスター、モバイル画面、しおり、ソーシャルグラフィックなど必要なフォーマットに合った成果物を即座に生成
- プロンプトで希望するアスペクト比を指定するか、プリセットオプションで選んで新しいサイズで再生成可能
実世界の知能
- Images 2.0は画像生成により最新の世界理解を反映し、知識カットオフが2025年12月に更新
- 説明資料、地図、教育用グラフィック、視覚的要約など、正確性と明瞭さが美的要素と同じくらい重要な成果物に有利
- 向上した知能により、情報の統合からコピー作成、可視化までのエンドツーエンド作業を実行可能
- 余白配置、可読性、流れを考慮した、すっきりと体系的なデザイン感覚を備える
視覚的思考パートナー
- thinkingまたはproモデルを選ぶと、モデルがより多くの時間を投じてエージェント的に作業を理解し実行
- ウェブ上で関連情報を検索し、アップロード資料を明快な視覚説明資料へ変換し、生成前に画像構造を推論
- このモードでImages 2.0はビジュアル思考パートナーとして機能し、草案コンセプトから完成アセットまでユーザーの作業量を大幅に削減
- thinkingモードでは一度に複数の異なる画像を同時生成可能 — ChatGPT画像生成では初の機能
- 一連の漫画ページ、家全体のリデザイン方針、ポスターコンセプト群、さまざまなアスペクト比・言語のソーシャルグラフィックセットなどのワークフローを支援
- 画像を1枚ずつプロンプトして手作業で組み合わせる代わりに、キャラクター・オブジェクトの連続性を保った最大10件の一貫した成果物を一度に要求可能
- 各成果物は順次、前の成果物を基に構築
4件のコメント
画像に推論が入っていて、結果がすごいことになっています。
単に新規事業に関するキーワードを投げただけなのに、
コアメッセージやペインポイントまで推論してランディングページに落とし込んでくれます。
これまで参考にするよう伝えていたサイトのブランドカラー、ブランドメッセージのトーン、モデルまでそのまま取り込むのは基本ですし、
日本語もまったく文字化けしていないのを見ると、今後の活用度はとてつもないものになりそうです。
AIの進化が、だんだん本当に恐ろしくなってきました。
すごいですね。ナノバナナが出たときも驚きましたが、さらに良くなりましたね。競争があるから発展も速いようです。
おお……文字処理はナノバナナだったのに、今回はかなり本気を出してきたようですね。
紹介文の内容のすべてのテキストを画像にしました。
文章全体を画像をスクロールしながら見ることができます。
途中の筆記体が印象的ですね
Hacker Newsのコメント
gpt-image-2で「ハムラジオを持ったアライグマを探す Where's Waldo 風の画像」を作り、コードはここにある。結果はこの画像だが、肝心のアライグマが本当にハムラジオを持っているのか、自分にも確信がない。もともとWhere's Waldo系のテストは、最後まで探し切る忍耐がなかなか続かないgemini-3.1-flash-image-previewで 4096x4096 の画像を作ると 2,520トークン、画像1枚あたり約**$0.151**、gpt-image-2で 3840x2160 の画像を作ると 13,342トークン、約**$0.4かかると整理した。つまりこのモデルは Gemini より2倍以上高い**gpt-image-1.5と Google の NB2 は、自分の比較サイトではかなり接戦だと思った。プロンプト遵守重視の評価では、どちらも生成と編集で約70%の成功率を示し、視覚的完成度は常に Gemini 側が一段上だった。それでもgpt-image-1.5は OpenAI にとって大きな飛躍で、以前のいわゆる「piss filter」のような慢性的な問題をかなり解消していた。比較チャートは編集がここ、生成がここで見られる。更新時点ではgpt-image-2はテストセット中のいわゆるmodel killerだった九角星を通過し、text-to-image ベンチマークで15問中12問を正解して、従来の最高モデルを1点差で上回った。ただし、色順が厳密な coral snake、最初の20個の素数を面に書いた D20、縁から人があふれ出している平らな地球型の惑星プロンプトには依然として失敗していた。全体比較はAll Models、主要モデルだけを見るならここにあるGPT-Image-2生成画像をかなりうまく検出できた。関連論文はここで、自分はこの2つを組み合わせてオンデバイスのAI画像検出器を自作した