1 ポイント 投稿者 GN⁺ 2025-10-28 | 1件のコメント | WhatsAppで共有
  • 複数の画像生成AIモデルを同一のプロンプトでテストし、正確性・創造性・一貫性を評価した実験プロジェクト
  • OpenAI 4o、Gemini 2.5 Flash、Imagen 4、Seedream 4、FLUX.1 dev、Midjourney v7 など全14モデルが参加
  • すべてのモデルはインペインティングや編集機能なしで、与えられた説明だけをもとに画像を生成
  • 各テストには明確な最低合格基準が設けられ、視覚要素を満たしているかを基準に成功率を算出
  • 結果はモデル間の性能差を示すとともに、複雑な概念理解や数学的構造の生成が依然として難しいことを示している

実験概要

  • 厳格なルールに基づいて各モデルの純粋な生成能力を評価した比較ベンチマーク実験
    • インペインティング、リミックス、後続の修正指示などの機能はすべて禁止
    • 各モデルに許された試行回数は、プロンプトごとに数十回のみ
  • 評価基準は、正確な視覚条件を満たしているかどうかを中心としている

主なテスト結果

  • The Prussian Ring Toss
    • プロイセン兵が互いのスパイク付きヘルメットに輪を投げる場面
    • 6モデル中5モデルが条件を満たし、最も高い成功率
  • Nine-Pointed Star
    • 9つの頂点を持つ星を正確に生成しなければならない課題
    • 大半のモデルは偶数形状に収束して失敗し、成功は3モデルのみ
  • Spheron
    • アレクサンドロス大王が**「Hippity Hop」おもちゃ**に乗って戦う油彩風の絵
    • 歴史的文脈と現代的オブジェクトを組み合わせる能力を評価し、成功は4モデルのみ
  • Cubed⁵
    • 赤–青–緑–紫–黄の順で透明なガラスキューブ5個を垂直に積み上げる場面
    • 5モデルが正確に再現し、縦横比が結果の品質に大きく影響
  • Cephalopodic Puppet Show
    • タコの8本の足それぞれに靴下人形をはめた場面
    • 概念的理解を要するテストで、条件を満たしたのは半数のみ

追加テスト事例

  • Quantum Entangled Einstein: アインシュタインと量子力学に関するアイデア電球の描写 → 3/6成功
  • The Yarrctic Circle: 氷の義足を付けた北極の海賊イメージ → 6/6で全員成功
  • The Labyrinth: 入口・出口・経路が明確な2D迷路の生成 → 1/6成功
  • A Dicey Situation: 20面体サイコロ(D20)に素数だけが刻まれた面を実装 → 0/6で全員失敗

分析と示唆

  • 単純な視覚スタイルよりも、論理構造やルールベースの描写で誤りが頻発
  • 特にテキスト・数字・対称構造・色の順序など精密な条件があるプロンプトで失敗率が高い
  • 一方で、感情的あるいは想像力を要する物語型プロンプトでは比較的高い一貫性を示す
  • 全体として、GenAIモデルはいまだに複合概念の理解と構造的再現力の限界を露呈している

要約

  • 今回の実験は、テキストから画像を生成するモデル間の**「本当の理解力」**を測る興味深い試み
  • Midjourney や OpenAI 4o など最新モデルでも、一部の論理的な場面では完全に失敗
  • 結果は、**「テキストを理解すること」「その意味を正確に視覚化すること」**は別問題であることを示している
  • 今後のモデル発展における中核課題は、言語的文脈と視覚的構造の整合性改善だとみられる

1件のコメント

 
GN⁺ 2025-10-28
Hacker Newsの意見
  • GPT-4oを使っていると、会社が道徳の裁定者のように振る舞ってユーザーの要求をしょっちゅう拒否するのが本当にいら立つ
    合法的なことまで「許可されていない」と止めるのは、まるで1964年の検閲を企業が強制しているような感覚だ
    GPT-5はさらに、会話の冒頭ごとに「良い質問ですね」「素晴らしい観察ですね」みたいなおべっか混じりの決まり文句で始まるので、ますます耐えがたい
    • AltmanがChatGPTでNSFWを許可したことを批判する人もいたが、私はそれが企業検閲の緩和に向かう正しい方向だと思う
      ユーザーの嗜好データをRLHFで学習させると、モデルが追従的なおべっか体質になる副作用が出る
      今の主要LLMはどれもそういう状態だが、それでもGPT-4oよりはましだと思う
    • 中国系モデルを使ってみると、はるかに制約が少ない、もちろんいくつか例外はある
    • 企業向けソフトウェアでNSFWを許可しているものは見たことがない
      ChatGPTは企業向け製品だから、もし暴力的または性的な画像を作れたら、大企業は絶対に買わないはずだ
      Fortune 500企業のソフトウェア調達担当として働いていた経験から100%確信している
  • 記事に日付がないのが不思議だったが、Waybackを見るとtext-to-imageページは4月image editingページは9月に追加されたことが確認できた
    日付がないので、初見では同時に作られたように見える
    • SEO担当者が日付のない記事のほうが検索エンジンに引っかかりやすいと説得したのだろう
      あいつらの枕の両面がずっと熱いままであってほしい
    • その通り、かなり古い内容だ。最近のAIでは1週間経つだけで時代遅れになる
  • 最初は“image editing”という用語が紛らわしかった
    実際には新しい画像を生成する機能なのに、既存画像を修正する意味で使われているようだった
    Qwen3-VL-30B-A3Bのようなマルチモーダルモデルは既存画像の修正がうまい。imagegpt.comも悪くなかったが、どのモデルを使っているのかは分からない
    • こうしたフィードバックを何度も受けたので、上部ナビゲーションバーをもっと目立たせる必要があると思った
      ちなみにQwen3-VLは画像生成や編集ではなく、画像推論用モデル
      おそらくバックエンドではQwen-Image-Editを使っていた可能性がある
    • 私が見たサイトでは既存画像を修正しているように見えた
      たとえば「禿げた男に髪の毛を追加」というプロンプトを与えると、元画像を修正した結果が出てきた
      技術的には新しい画像を生成する過程だが、PhotoshopでSave Asするのに近い概念だと思う
  • 実際のリンクは https://genai-showdown.specr.net/image-editing
    • その通り、これが編集用リンクだ。もう一方はtext-to-image用だ
  • モデルは内部的に何度も画像を生成し、最も良い結果だけを見せる構造なのではないかと推測している
    GPT-4oはtemperatureが低く一貫性は高いが創造性は低く、Midjourneyはより高いtemperatureで豊かな背景や質感を生み出す
    4oのセピア調は後処理かもしれない
    実際には複数段階を経て最終画像を磨き上げるワークフローである可能性が高い
    • 実際にローカルで画像モデルを動かしてみると、ほとんどのホスティングモデルが何度も生成せず1回だけ実行していることが分かる
      ただしLLMベースのモデルはプロンプト書き換え(prompt rewriting) をよく使う
      DALL·E 3の事例はこの記事でうまく説明されている
    • 生成試行回数と各プロンプトごとの結果を公開したらもっと面白そうだ
  • “Alexander the Great on a Hippity Hop”を見て即座にupvoteした
    • 私もそのおもちゃのことを完全に忘れていたが、これを見て子ども時代の思い出がよみがえった
    • それでも馬キメラ画像のほうが好きだ
  • 画像モデルを比較テストしたいなら、BrandImageGen.comで無料で試せる
    登録ユーザーからのフィードバックを待っている
  • 「緑の象を描くな」ミームはどこだと聞かれて、GitHubディスカッションで提案されていたのを見つけた
  • 複数の画像生成ツールを比較レビューした記事を投稿
    Generative AI Reviewリンク
  • “Editing Showdown”のおかげでSeedreamモデルを初めて知った
    ただ、何度も試した後に別のLLMが評価する仕組みは正確には理解できない。それ自体で精度に限界があるのではないかと思う
    • FAQには評価基準が明確に書かれている
      PASS/FAIL方式で、プロンプトに合う画像を一度も生成できなければ失敗と見なす
      「その辺の誰かに見せてもプロンプトを当てられるか?」というピクショナリー・テストの考え方だ
      最終評価は明確な基準に従って手動で決めている
    • LLMがLLMを評価するのは業界標準だ
      人間の審査員を箱に閉じ込めて7600件の結果を評価させるわけにはいかない
      もちろんLLM審査も完璧ではないが、比較可能性と一貫性の面では人間より優れていて
      これを最適化目標ではなく性能の温度計として使う限り、大きな問題はない
      ただし最適化対象にすると、GPT-5のような妙な結果物が出てくる可能性がある