ChatGPT Images 2.0を公開

(openai.com)

5 ポイント投稿者 GN⁺ 8 일 전 | 4件のコメント | WhatsAppで共有

OpenAIが画像生成モデルの次世代版を公開。紹介文そのものを文字で書かず、Images 2.0で生成した画像内のテキストだけで紹介
複雑な視覚作業と精密なテキストレンダリングを含む、すぐに使える成果物の生成に重点
初の思考（thinking）機能を備えた画像モデルで、ウェブ検索、複数画像の同時生成、出力物そのものの検証が可能
日本語、中国語、ヒンディー語、ベンガル語など非ラテン文字のレンダリング性能が大幅に向上し、多言語デザイン制作で実用的
3:1から1:3までの柔軟なアスペクト比対応で、バナー、ポスター、モバイル画面など多様なフォーマットに即応
レンダリングツールから戦略的デザインシステムへの転換を掲げ、ChatGPT・Codex・API全体で利用可能

新しい画像生成の時代

画像を単なる装飾ではなくひとつの言語と定義し、仕組みの説明、雰囲気づくり、アイデア検証、主張の伝達などの役割を担う
1年前にリリースしたChatGPT Imagesが、AI画像は美しく実用的になり得ることを証明したのに続き、Images 2.0は複雑な視覚作業を精密に処理する次世代モデル
細かな指示を忠実に反映し、オブジェクトの正確な配置や関係表現、密集したテキストレンダリングで飛躍的に向上
構図と視覚的センスに優れ、成果物がAI生成ではなく意図的なデザインのように感じられる水準
さまざまな言語で正確に動作し、拡張された視覚的・世界知識を活用して少ないプロンプトでもより賢い画像生成が可能
このモデルはOpenAIの推論モデルの知能と視覚世界の理解を組み合わせ、画像生成を単なるレンダリングから戦略的デザインへ、ツールからビジュアルシステムへと転換
本日からChatGPT、Codex、APIの全ユーザーに提供

より高い精度と制御性

Images 2.0は画像生成において前例のない具体性と忠実度を提供
より精巧な画像を構想するだけでなく、それを効果的に実装し、指示への準拠・要求詳細の保持・微細要素のレンダリングに強み
既存の画像モデルが苦手としていた小さなテキスト、アイコン、UI要素、密集構成、微妙なスタイル制約を最大2K解像度で処理
「だいたい似た画像」ではなく、実際にそのまま使える成果物を生成

多言語テキスト対応の強化

従来モデルは英語およびラテン文字言語で一貫した性能を示していたが、複雑または密集したテキストでは非ラテン文字の処理が不十分だった
Images 2.0は多言語理解力の向上とともに、とくに日本語、中国語、ヒンディー語、ベンガル語の非ラテン文字レンダリングで大きく改善
非英語テキストを正確にレンダリングするだけでなく、言語的にも自然に流れる成果物を生成可能
単純なラベル翻訳を超え、言語がデザインの一部であるポスター、説明資料、ダイアグラム、漫画などでも視覚的一貫性を維持
ユーザーが実際に使う言語でビジュアルを作成でき、グローバルでの活用度が向上

スタイルの精緻さと写実性

Images 2.0は多様な視覚スタイルにわたる忠実度が大幅に向上
写真の特徴的要素（写実性を高める微細な欠点を含む）、映画のスチル、ピクセルアート、漫画など独自の視覚言語の質感・照明・構図・細部で一貫性を改善
要求されたスタイルを近似するレベルではなく、忠実に反映した成果物を生成
ゲームのプロトタイピング、ストーリーボード、マーケティングクリエイティブ、特定メディアやジャンル向けアセット制作にとくに有用

柔軟なアスペクト比対応

3:1（横長）から1:3（縦長）まで幅広いアスペクト比に対応
ワイドバナー、プレゼンテーションスライド、ポスター、モバイル画面、しおり、ソーシャルグラフィックなど必要なフォーマットに合った成果物を即座に生成
プロンプトで希望するアスペクト比を指定するか、プリセットオプションで選んで新しいサイズで再生成可能

実世界の知能

Images 2.0は画像生成により最新の世界理解を反映し、知識カットオフが2025年12月に更新
説明資料、地図、教育用グラフィック、視覚的要約など、正確性と明瞭さが美的要素と同じくらい重要な成果物に有利
向上した知能により、情報の統合からコピー作成、可視化までのエンドツーエンド作業を実行可能
- 余白配置、可読性、流れを考慮した、すっきりと体系的なデザイン感覚を備える

視覚的思考パートナー

thinkingまたはproモデルを選ぶと、モデルがより多くの時間を投じてエージェント的に作業を理解し実行
ウェブ上で関連情報を検索し、アップロード資料を明快な視覚説明資料へ変換し、生成前に画像構造を推論
このモードでImages 2.0はビジュアル思考パートナーとして機能し、草案コンセプトから完成アセットまでユーザーの作業量を大幅に削減
thinkingモードでは一度に複数の異なる画像を同時生成可能 — ChatGPT画像生成では初の機能
- 一連の漫画ページ、家全体のリデザイン方針、ポスターコンセプト群、さまざまなアスペクト比・言語のソーシャルグラフィックセットなどのワークフローを支援
画像を1枚ずつプロンプトして手作業で組み合わせる代わりに、キャラクター・オブジェクトの連続性を保った最大10件の一貫した成果物を一度に要求可能
- 各成果物は順次、前の成果物を基に構築

4件のコメント

j2sus91 8 일 전

画像に推論が入っていて、結果がすごいことになっています。

単に新規事業に関するキーワードを投げただけなのに、
コアメッセージやペインポイントまで推論してランディングページに落とし込んでくれます。

これまで参考にするよう伝えていたサイトのブランドカラー、ブランドメッセージのトーン、モデルまでそのまま取り込むのは基本ですし、
日本語もまったく文字化けしていないのを見ると、今後の活用度はとてつもないものになりそうです。

AIの進化が、だんだん本当に恐ろしくなってきました。

kirinonakar 8 일 전

すごいですね。ナノバナナが出たときも驚きましたが、さらに良くなりましたね。競争があるから発展も速いようです。

xguru 8 일 전

おお……文字処理はナノバナナだったのに、今回はかなり本気を出してきたようですね。
紹介文の内容のすべてのテキストを画像にしました。
文章全体を画像をスクロールしながら見ることができます。
途中の筆記体が印象的ですね

GN⁺ 8 일 전

Hacker Newsのコメント

自分は新しいモデルをこんなふうに試してみた。gpt-image-2で「ハムラジオを持ったアライグマを探す Where's Waldo 風の画像」を作り、コードはここにある。結果はこの画像だが、肝心のアライグマが本当にハムラジオを持っているのか、自分にも確信がない。もともとWhere's Waldo系のテストは、最後まで探し切る忍耐がなかなか続かない
- 最大解像度を使うコマンドで再実行したところ、かなり良い結果が得られた。OpenAI cookbook の推奨サイズを参考にしており（リンク）、結果はここにある。今回はraccoonも見つかったし、画像1枚あたりおよそ40セントかかったようだ
- あの画像を見てありがたくはあるのだが、人の顔があまりにも不気味で、悪夢に出てきそうな感じがする
- このプロンプトは現時点のdiffusion系モデルにとって本当に意地悪なくらい難しい課題だと思う。だからこそ、挑戦したこと自体がすごいと感じる
- 「最後まで探し切る忍耐がない」という話を見て、これをいっそ新しいAIベンチマークにできるのではと思った
- この種の作業は、AIが構造的ディテールでどうしても弱さを見せ続ける領域に思えた。遠目にはもっともらしいが、近くで見ると叫んでいるような顔、両側を同時に指す標識、存在しない救急テント、怪物のように見える犬といった誤りが多すぎる。宣伝用サンプルも似たようなもので、解剖学や周期表の例も細かく見ると崩れる。結局、膨大なRAM & GPUsと水と電力を使って、もっと粗い Where's Waldo を作っているだけなのではないかという懐疑を覚える
Nano Banana Pro を試しながら、画像モデルのルール遵守能力をテストする、とても面白いプロンプトを作った。「最初の64個の素数に対応する National Pokédex 番号の Pokémon を 8x8 グリッドに配置し、番号の桁数に応じて 8-bit、charcoal、Ukiyo-e スタイルで描け」というものだ。NBP の結果はここにあり、番号、Pokémon、スタイルは概ね正しかったが、スタイル適用が雑で、画像が盗用っぽく見えるという議論はある。同じプロンプトを gpt-2-image high で実行した結果はここにあり、より創造的でオリジナルらしいスタイルにはなったが、スタイルのロジックが数字基準ではなく行単位で適用され、Pokémon の一部は間違っており、フォントも違い、下側も正方形ではなかった。かなり奇妙な結果だった
- このテストは本当に素晴らしいと思ったし、同時にgpt-2-imageがここまでひどいのは少し笑ってしまった。むしろ検索してコピペしたようなplagiarized画像のほうがまだマシだとすら思う。少なくとも「指示にきちんと従っているか」を確認する sanity check や後処理の段階もなさそうで、桁数ごとのスタイル制約違反は簡単に検出できたはずだ。しかも価格も高いので、結果が実質的に使えないレベルだとなおさら惜しい
- むしろ、なぜこのプロンプトを良いプロンプトだと考えるのか気になった
gemini-3.1-flash-image-previewで 4096x4096 の画像を作ると 2,520トークン、画像1枚あたり約**$0.151**、gpt-image-2で 3840x2160 の画像を作ると 13,342トークン、約**$0.4かかると整理した。つまりこのモデルは Gemini より2倍以上高い**
- この比較はapples to orangesだと思う。flash 版とフル版を直接比較しているようなもので、細部のディテールではこちらのほうが flash より体感で5倍くらい良いと感じる
画像生成モデルを試すときにいつも使うhard promptがある。古びた時計職人の手、ヴィンテージの懐中時計、浅い水、屈折と caustics、落ちる水滴、ガラス面に映った歪んだ顔、100mm macro lens といった条件を一度に入れる方式だ。結果画像はGoogle Driveに上げてあり、Web と API の両方で何度も試したが、全体としてはNano Bananaほど良くはなかった
- なぜこれを良いプロンプトだと思うのか気になった
- 共有画像を見ようとしたが、ホスト側でrate limitがかかっているように見えたので、参考までに伝えたかった
- リンクが壊れているように見えることを確認した
OpenAI の gpt-image-1.5 と Google の NB2 は、自分の比較サイトではかなり接戦だと思った。プロンプト遵守重視の評価では、どちらも生成と編集で約70%の成功率を示し、視覚的完成度は常に Gemini 側が一段上だった。それでも gpt-image-1.5 は OpenAI にとって大きな飛躍で、以前のいわゆる「piss filter」のような慢性的な問題をかなり解消していた。比較チャートは編集がここ、生成がここで見られる。更新時点では gpt-image-2 はテストセット中のいわゆるmodel killerだった九角星を通過し、text-to-image ベンチマークで15問中12問を正解して、従来の最高モデルを1点差で上回った。ただし、色順が厳密な coral snake、最初の20個の素数を面に書いた D20、縁から人があふれ出している平らな地球型の惑星プロンプトには依然として失敗していた。全体比較はAll Models、主要モデルだけを見るならここにある
価格比較をまとめてみた。GPT Image 2 は Low では 1024x1024 が $0.006、1024x1536 と 1536x1024 が $0.005、Medium はそれぞれ $0.053、$0.041、$0.041、High は $0.211、$0.165、$0.165 だった。一方 GPT Image 1 は Low が $0.011、$0.016、$0.016、Medium が $0.042、$0.063、$0.063、High が $0.167、$0.25、$0.25 だった
- こういう大きな解像度制限があるのは少し変だと思った。もっと大きくすると拡大時にディテールが崩れるのか、それとも単にコストが急激に跳ね上がるのか気になる
- v2 では大きい出力のほうが小さい正方形より高く、v1 ではむしろ逆なのが興味深かった。なぜこんな価格構造になったのか気になる
今回はピアノ鍵盤テストを通過したことを確認した。成功例はここにあるが、middle C のラベル付けはこの試行では間違っていた。それでも再度依頼すると修正できた
- NB 2 が出たとき、このテストの難易度をさらに上げた。すべての accidentals と naturals の色を逆にする形に変えても完璧に正解し、例はここにある
中国語テキストレンダリングの改善は本当に目立っていて印象的だと感じる。それでも Wuxi のサンプル画像には誤字が残っており、たとえば小笼包の笼が誤っていた。「极小中文也清晰可读」セクションにもさらに誤字があったが、読むうえでは大きな問題はなかった。それでも、以前の画像生成モデルより大差で良くなっているのは間違いないと感じる
- これが中国現地の中国系モデルよりも優れているのか気になった。学習データには中国語の例がずっと多いはずなので、普通ならその点にはそちらのほうがより注力していそうだと思う
今こそC2PAに触れるのに良いタイミングだと思う。これは画像の出所を積極的に証明する規格で、OpenAI も参加している。自分が AI で作った画像を C2PA Viewer に入れると、出所が ChatGPT と表示される。もちろん悪意ある利用者はメタデータを削除して普通の画像のように見せられるが、長期的には出所表示のない画像を non-https のような危険信号として扱うべきだと考えている。詳しくは c2pa.org を参照できる
- 問題を単にbad actorsだけの行動として見るのは難しいと感じる。Instagram や Facebook のような大半のプラットフォームはプライバシー保護のためにメタデータをデフォルトで削除し、EXIF には位置情報やファイル名、作成時刻、機器情報などが含まれることがある。だから今は悪意ある改ざんよりも、多くのサイトが画像アップロード時にメタデータ削除をしてしまう構造そのものが、C2PA 保持にとってより大きな現実的問題に見える
- OpenAI が最初から生成画像にC2PA manifestsを付けてきたことを付け加えたい。また、自分が行った小規模な評価では、OmniAID のような最新の ML ベース AI画像検出器が GPT-Image-2 生成画像をかなりうまく検出できた。関連論文はここで、自分はこの2つを組み合わせてオンデバイスのAI画像検出器を自作した
このモデルを数時間使ってみたが、正直かなり印象的だった。画像モデルで実際に自分の仕事に役立つと感じたのは今回が初めてで、特に PowerPoint スライドやmockup制作で非常に強力だと感じた