- ChatGPTの画像生成機能が新たにアップグレードされ、より精密な編集と高速な生成を提供
- GPT‑Image‑1.5 モデルはテキスト指示により正確に従い、人物の 類似性と照明・構図 を保ったまま修正可能
- 新しい Images サイドバーインターフェース により、プリセットスタイル、トレンドのプロンプト、外見の再利用機能をサポート
- APIでも同様の性能向上に加えて コストを20%削減、ブランドロゴ・製品画像の生成に適している
- 今回のアップデートは すべてのChatGPTおよびAPIユーザーに即時展開 され、画像生成の実用性と品質を大きく向上
GPT‑Image‑1.5 の紹介
- 最も強力な画像生成モデル を基盤とした ChatGPT Images の新バージョンを公開
- テキスト指示により正確に従い、顔の類似性などの細部要素を維持しながら編集可能
- 画像生成速度が 最大4倍高速化、反復的な試行やアイデア探索の効率を向上
- モデルは 表現力のある変換、高密度なテキストレンダリング、自然な結果 を提供
- 小さな修正から完全な再構成まで対応し、プリセットスタイルを選んで手軽に生成可能
- ChatGPT の全ユーザーに順次展開中で、APIでは GPT‑Image‑1.5 として提供
ユーザーの意図に合った結果
- モデルは要求された部分だけを修正しながら、照明・構図・人物の類似性 を一貫して維持
- これにより 写真編集、衣装・ヘアスタイルのシミュレーション、スタイルフィルター、コンセプト変換 などで高い一致度を確保
- ChatGPT が 携帯型クリエイティブスタジオ のように、実用的な編集と芸術的な再構成の両方を実行
- 多様な編集タイプ(追加、削除、結合、混合など)をサポート
- テキスト・レイアウトなどの要素を追加する 創造的変換機能 を強化
- GPT Image 1.0 比で 指示文の理解力が向上、細かな編集が可能
- 高密度で小さなテキストレンダリング の品質を改善
新しい画像生成スペース
- ChatGPT 内に Images 専用サイドバー を導入し、画像の探索と生成プロセスを短縮
- プリセットフィルター、トレンドのプロンプト、外見の再利用機能を含む
- カメラロールを再利用する必要なく、一度のアップロードで繰り返し活用可能
- 画像生成速度は 最大4倍向上、複数の画像を同時に生成可能
- 小さな修正から完全な再構成まで、ユーザーのビジョンに一致する結果 を提供
追加の品質改善
- 小さな顔を多数表現することや、自然な結果のレンダリング など、すぐに活用できる品質向上
- 例: 1970年代のロンドンの街並みを写実的に再現し、細部のフォーカスと人物表現が向上
改善点と限界
- 初期バージョン比でさまざまなケースにおいて 明確な性能向上 を確認
- ただし一部の結果は依然として不完全で、複数の顔・多言語処理 などには改善の余地がある
GPT Image 1.5 の API 提供
- API版は ChatGPT Images と同じ改善点を含む
- ブランドロゴやキービジュアルの一貫性維持
- マーケティング・EC向け画像生成に適している
- 入出力コストを20%削減、同じ予算でより多くの画像を生成可能
- OpenAI Playground、ギャラリー、プロンプトガイドで体験可能
- Wix、Canva、Figma、Envato などの企業 がすでに活用中
- Wix は「高品質・高い一貫性のある画像生成 により高速な制作ワークフローを支援する」と評価
リリースと展開
- 新しい ChatGPT Images モデルは 世界中のすべての ChatGPT および API ユーザーに即時展開
- 別途モデルを選択せずに利用でき、以前のバージョンは カスタム GPT 形式で維持
- OpenAI は今回のアップデートを 画像生成技術の発展における重要な段階 と評価
- 今後はさらに細かな編集や多言語対応などの追加改善を予定
1件のコメント
Hacker Newsの反応
GenAI Showdownサイトの gpt-image 1.5 の結果を共有。
OpenAIは依然として プロンプト理解力 は強いものの、画像の 忠実度(fidelity) は弱めだった。今回のアップデートでその弱点がかなり改善された。
特に全体の美観を損なわずに 局所編集(localized edit) をうまく実行する。以前のスコア4/12から8/12へと2倍に向上し、唯一「Giraffe prompt」を通過したモデル。
モデルの 操作性(steerability) も90%水準と高い。
新たに追加された機能としては、モデル別の失敗事例(outtakes)セクション、REVEおよびFlux.2 Devモデルの追加、そして重み付きスコア方式がある。
3つのモデル(gpt-image-1, gpt-image-1.5, NB Pro)を比較するには このリンク を参照。
Nano Banana関連の実験をまとめたブログ記事を準備中。
新しいChatGPT Imageモデルを試したところ、Nano Banana Pro よりはかなり劣るが、基本のNano Bananaよりは良かった。
価格は不明だが、gpt-image-1.5は既存モデルより約20%安いように見える。
興味深いのは グリッド生成(grid generation) の事例。NBPは4x4を超えるとプロンプトの一貫性が崩れるが、OpenAIが6x6の事例を試したのは印象的。
その間、NB Proの印象的な成果物は このブログ で見られる。
NB Proは、初めて見る ジグソーパズル を組み立てたり、3D地形を推定したり、窓を鏡に変えたりと、驚くべき結果を出していた。
例えば、オールを漕ぐ2人を頼んだら、船が小さすぎてほとんど乗れないほどだった。
また、修正プロンプトを与えるたびに以前の会話が消えるバグが非常に不便だった。
自然な結果のために「shaky amateur smartphone photo」のような文句をプロンプトの先頭に追加していた。
参考までに関連する反応は このツイート でも見られる。
gpt-image-1はNano Banana(Pro)より previz-to-render 機能がはるかに優れている。
Nano Bananaは低解像度のプリビズ要素をそのまま維持するが、gpt-image-1は人物ポーズとシーンブロッキングを理解し、アップスケールまで行う。
例示動画: 3D + Posing + Blocking, セット再利用版, Gaussian splats, 追加例
今後は スタイル制御力 と 速度、参照画像ベースのスタイリング が可能なモデルが必要。
Adobeも似た機能を実験しており、Relighting, Image→3D編集, Gaussian編集, 3D→Image変換 などをデモしている。
自分はこれらの機能を オープンソースのデスクトップツール として直接実装中で、Rustで開発している。
2010年にPhotoshopの人員が画像を合成してくれるサービスだったら、大きな論争になっていた気がする。
今はAIが 著作権と著者という概念を崩した時代 で、新しいコンテンツをどう保護できるのか気になる。
以前、自分が撮った珍しいスタイルの写真をgptがほぼそのまま再現したことがあった。
公開した瞬間、ある程度の悪用は受け入れなければならない。モデルが原作に過学習するケースについては、まだ法的先例がない。
gpt-image-1.5で スプライトマップとUVテクスチャマップ を生成してみたところ、Megaman Legends っぽさがよく出ていた。
例1, 例2
ただし実際の3Dモデルがないので、正確なUVマップかどうかは確信がない。Nano Bananaの初期版ではこうした作業は不可能だった。
こうしたテクスチャを使うことはできるが、歪みが大きいはず。
正しいアプローチは、モデルをアンラップして ワイヤーフレームUVマップ を入力として使うこと。
実際のCrashモデルは ここ で見られる。
ソフトウェア製品の ダークテーマ適用実験 を行った。
Gemini/Nanoは一部のパネルだけを灰色に変える程度だったが、GPTはアプリ全体を見事にテーマ化していた。
それでも細部のデザインには、なおデザイナーの手が必要。
ChatGPT画像にいつもある 黄色っぽさ の理由が気になっていた。
「存在しない記憶から画像を作る」というプロダクトの売り文句が奇妙に感じられる。
自分は主にプログラミング、wiki、数学など テキスト中心の作業 にしか使っていない。
この現象は、以前 Snapchatフィルター が流行していた頃に似ている。自分は基本モードのままにしていた。
結局みんなが 仮想の人生 を購読するようになり、カード決済に失敗すると現実へ戻される世界になるのかもしれない。
新モデルがAPIで動くというので Golang SDK grail を更新したが、
呼び出すと500サーバーエラーが発生する。モデル一覧にもgpt-image-1.5はない。
コード例 を参照。
自分のローカルプレイグラウンド(gpt-image-1-playground)では、404を処理するよう修正した。
モデル名を間違えると「サポートされる値はgpt-image-1, gpt-image-1-miniのみ」というメッセージが出る。
いまだに Midjourney を使っている。他の主要モデルは スタイル面の創造性 に乏しく、フォトリアリズム にばかり集中している。
単一画像ではなく 文脈のあるシーケンス を作るには、こうした機能が不可欠。
芸術の価値を「レンダリング技術力」だけで判断する傾向があり、それは社会的文脈の中での 文化創作の意味 を見落とす態度だ。