- 複数の画像生成AIモデルを同一のプロンプトでテストし、正確性・創造性・一貫性を評価した実験プロジェクト
- OpenAI 4o、Gemini 2.5 Flash、Imagen 4、Seedream 4、FLUX.1 dev、Midjourney v7 など全14モデルが参加
- すべてのモデルはインペインティングや編集機能なしで、与えられた説明だけをもとに画像を生成
- 各テストには明確な最低合格基準が設けられ、視覚要素を満たしているかを基準に成功率を算出
- 結果はモデル間の性能差を示すとともに、複雑な概念理解や数学的構造の生成が依然として難しいことを示している
実験概要
- 厳格なルールに基づいて各モデルの純粋な生成能力を評価した比較ベンチマーク実験
- インペインティング、リミックス、後続の修正指示などの機能はすべて禁止
- 各モデルに許された試行回数は、プロンプトごとに数十回のみ
- 評価基準は、正確な視覚条件を満たしているかどうかを中心としている
主なテスト結果
- The Prussian Ring Toss
- プロイセン兵が互いのスパイク付きヘルメットに輪を投げる場面
- 6モデル中5モデルが条件を満たし、最も高い成功率
- Nine-Pointed Star
- 9つの頂点を持つ星を正確に生成しなければならない課題
- 大半のモデルは偶数形状に収束して失敗し、成功は3モデルのみ
- Spheron
- アレクサンドロス大王が**「Hippity Hop」おもちゃ**に乗って戦う油彩風の絵
- 歴史的文脈と現代的オブジェクトを組み合わせる能力を評価し、成功は4モデルのみ
- Cubed⁵
- 赤–青–緑–紫–黄の順で透明なガラスキューブ5個を垂直に積み上げる場面
- 5モデルが正確に再現し、縦横比が結果の品質に大きく影響
- Cephalopodic Puppet Show
- タコの8本の足それぞれに靴下人形をはめた場面
- 概念的理解を要するテストで、条件を満たしたのは半数のみ
追加テスト事例
- Quantum Entangled Einstein: アインシュタインと量子力学に関するアイデア電球の描写 → 3/6成功
- The Yarrctic Circle: 氷の義足を付けた北極の海賊イメージ → 6/6で全員成功
- The Labyrinth: 入口・出口・経路が明確な2D迷路の生成 → 1/6成功
- A Dicey Situation: 20面体サイコロ(D20)に素数だけが刻まれた面を実装 → 0/6で全員失敗
分析と示唆
- 単純な視覚スタイルよりも、論理構造やルールベースの描写で誤りが頻発
- 特にテキスト・数字・対称構造・色の順序など精密な条件があるプロンプトで失敗率が高い
- 一方で、感情的あるいは想像力を要する物語型プロンプトでは比較的高い一貫性を示す
- 全体として、GenAIモデルはいまだに複合概念の理解と構造的再現力の限界を露呈している
要約
- 今回の実験は、テキストから画像を生成するモデル間の**「本当の理解力」**を測る興味深い試み
- Midjourney や OpenAI 4o など最新モデルでも、一部の論理的な場面では完全に失敗
- 結果は、**「テキストを理解すること」と「その意味を正確に視覚化すること」**は別問題であることを示している
- 今後のモデル発展における中核課題は、言語的文脈と視覚的構造の整合性改善だとみられる
1件のコメント
Hacker Newsの意見
合法的なことまで「許可されていない」と止めるのは、まるで1964年の検閲を企業が強制しているような感覚だ
GPT-5はさらに、会話の冒頭ごとに「良い質問ですね」「素晴らしい観察ですね」みたいなおべっか混じりの決まり文句で始まるので、ますます耐えがたい
ユーザーの嗜好データをRLHFで学習させると、モデルが追従的なおべっか体質になる副作用が出る
今の主要LLMはどれもそういう状態だが、それでもGPT-4oよりはましだと思う
ChatGPTは企業向け製品だから、もし暴力的または性的な画像を作れたら、大企業は絶対に買わないはずだ
Fortune 500企業のソフトウェア調達担当として働いていた経験から100%確信している
日付がないので、初見では同時に作られたように見える
あいつらの枕の両面がずっと熱いままであってほしい
実際には新しい画像を生成する機能なのに、既存画像を修正する意味で使われているようだった
Qwen3-VL-30B-A3Bのようなマルチモーダルモデルは既存画像の修正がうまい。imagegpt.comも悪くなかったが、どのモデルを使っているのかは分からない
ちなみにQwen3-VLは画像生成や編集ではなく、画像推論用モデルだ
おそらくバックエンドではQwen-Image-Editを使っていた可能性がある
たとえば「禿げた男に髪の毛を追加」というプロンプトを与えると、元画像を修正した結果が出てきた
技術的には新しい画像を生成する過程だが、PhotoshopでSave Asするのに近い概念だと思う
GPT-4oはtemperatureが低く一貫性は高いが創造性は低く、Midjourneyはより高いtemperatureで豊かな背景や質感を生み出す
4oのセピア調は後処理かもしれない
実際には複数段階を経て最終画像を磨き上げるワークフローである可能性が高い
ただしLLMベースのモデルはプロンプト書き換え(prompt rewriting) をよく使う
DALL·E 3の事例はこの記事でうまく説明されている
登録ユーザーからのフィードバックを待っている
Generative AI Reviewリンク
ただ、何度も試した後に別のLLMが評価する仕組みは正確には理解できない。それ自体で精度に限界があるのではないかと思う
PASS/FAIL方式で、プロンプトに合う画像を一度も生成できなければ失敗と見なす
「その辺の誰かに見せてもプロンプトを当てられるか?」というピクショナリー・テストの考え方だ
最終評価は明確な基準に従って手動で決めている
人間の審査員を箱に閉じ込めて7600件の結果を評価させるわけにはいかない
もちろんLLM審査も完璧ではないが、比較可能性と一貫性の面では人間より優れていて
これを最適化目標ではなく性能の温度計として使う限り、大きな問題はない
ただし最適化対象にすると、GPT-5のような妙な結果物が出てくる可能性がある