10 ポイント 投稿者 GN⁺ 2026-02-25 | 3件のコメント | WhatsAppで共有
  • 主要なAIモデル53種類を対象にテストした結果、ほとんどが基本的な推論に失敗した
  • 正解は**「運転」だが、53種類中42モデルが「歩く」**を選択
  • Claude Opus 4.6、Gemini 3シリーズ、Grok-4など5モデルだけが、10回の反復テストでも100%一貫した正答を出した
  • GPT-5は10回中7回だけ正解し、平均**人間正答率(71.5%)**と近い水準と評価された
  • 実験はAIの一貫した推論能力の不足文脈ベースの判断の限界を明らかにし、これを補う**「コンテキストエンジニアリング」の重要性**を強調している

洗車場テストの概要

  • テストは「洗車場が50m先にあるなら歩くべきか、運転すべきか?」という質問で構成
    • 正解は「運転」で、その理由は洗車をするには車が洗車場にある必要があるため
  • OpperのLLM Gatewayを通じて53モデルを同一条件で評価
    • システムプロンプトなしで、walk または drive のどちらかを強制選択するよう設定
    • 各モデルを1回テストした後、10回の反復テストで一貫性の検証を実施

1回目の単独実行結果

  • 53モデルのうち11モデルのみが正解(運転)42モデルは誤答(歩く)
  • 正解したモデル: Claude Opus 4.6、Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro、GPT-5、Grok-4、Grok-4-1 Reasoning、Sonar、Sonar Pro、Kimi K2.5、GLM-5
  • Anthropic、OpenAI、Google、xAI、Perplexity、Meta、Mistralなど主要ファミリーごとの差も確認
    • Anthropic: 1/9(Opus 4.6のみ正解)
    • OpenAI: 1/12(GPT-5のみ正解)
    • Meta(Llama)、Mistral、DeepSeekなどはすべて失敗
  • 大半の誤答は、「50mは短い距離なので歩く方が効率的」という距離中心のヒューリスティックによる誤りが原因
  • 一部のモデルは正解したものの、非論理的な根拠を示した
    • 例: Perplexity Sonarは「歩く方が食料生産エネルギーをより消費するため、むしろ汚染が大きい」と主張

2回目の10回反復テスト

  • 合計530回の呼び出し結果、一貫した正答率はさらに低下
  • 10/10正解モデル(5モデル): Claude Opus 4.6、Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro、Grok-4
  • 8/10正解モデル(2モデル): GLM-5、Grok-4-1 Reasoning
  • GPT-5は7/10正解で、残る3回は燃費・環境ロジックで誤答
  • 33モデルは10回すべて誤答で、GPT-4.1、GPT-5.1、Llama、Mistralなどを含む
  • 一部のモデルは初回では正解だったが、反復時に結果が不安定だった
    • Sonar: 1回正解 → 10回すべて誤答
    • Kimi K2.5: 5回正解、5回誤答
    • GLM-4.7: 1回誤答 → 10回中6回正解に改善

人間との比較実験

  • Rapidataプラットフォームを通じて1万人を対象に同じ質問を実施
    • 71.5%が「運転」を選択し、人間の平均正答率として設定
  • GPT-5の70%正答率は人間平均に近い
  • 53モデルのうち7モデルのみが人間平均を上回り、残る46モデルは人間より低い性能だった

主な推論事例

  • GLM-4.7 Flash: 「歩くなら車を押すか持ち上げる必要があるので不可能だ」という明確な論理を提示
  • Claude Sonnet 4.5: 「自動洗車なら運転が必要だ」と認識していたが、最終回答は「歩く」を選択
  • Gemini 2.5 Pro: 正解時には「車を洗うには洗車場にある必要がある」と正確に記述し、誤答時には「50mは短い距離」という論理を使用

AI信頼性の問題

  • 単一の論理ステップを要する簡単な問題であるにもかかわらず、53モデル中5モデルだけが完全正答
  • 失敗タイプは3つに分類
    • 常に誤答(33モデル): 距離中心のヒューリスティックに固定
    • ときどき正解(15モデル): 推論能力はあるが一貫性が不足
    • 常に正解(5モデル): 文脈的推論がヒューリスティックを安定して上回る
  • 単純な問題でも90%のモデルが失敗することは、実際のビジネスロジックや多段階推論における危険性を示唆する

コンテキストエンジニアリングの役割

  • 本テストは**「ゼロコンテキスト」環境**で行われ、モデルの純粋な推論能力を評価
  • 多くのモデルが失敗した原因は、ヒューリスティックが文脈的推論を圧倒するため
  • コンテキストエンジニアリングは、例示、ドメインパターン、関連情報を提供することで、このような誤りを緩和する
    • Opperの別実験では、小規模なオープンモデルにコンテキストを追加すると、98.6%のコスト削減で大規模モデル級の品質を達成した
  • 洗車場の問題は単純だが、実際の業務では曖昧さやドメイン知識が求められるため、コンテキスト設計が不可欠

実験方法論

  • すべてのモデルはOpper LLM Gatewayを通じて同一プロンプトでテスト
    • I want to wash my car. The car wash is 50 meters away. Should I walk or drive?
    • システムプロンプトなし、drive または walk の強制選択
    • 単独実行(1回)と10回反復(計530回)を実施し、すべての呼び出しログを記録し推論テキストを保存
  • 人間の比較群はRapidataを通じて同一形式で1万人を対象に調査
  • 全データはJSON形式で公開
    • 単独実行結果、10回反復結果、人間結果をそれぞれダウンロード可能

3件のコメント

 
armila 2026-02-26

Gemini Pro は、
車を持って行けるなら歩いて行ってもいいと答えていて、めちゃくちゃ笑いました。

 
grenade 2026-02-27

気の利いた返答ですね(笑)

 
GN⁺ 2026-02-25
Hacker Newsの意見
  • 人間の回答結果がChatGPTと正確に一致するのが興味深い
    現実的には、「人間回答サービス」は事実上死んだことを意味しているように見える。結局、人々は品質に関係なくAIに仕事を押し付ける方法を見つけるだろう

    • 偶然のように見えるが、実際には人間の回答はそのように収集されたわけではない
      RapidataはDuolingoやゲームアプリのような場所にマイクロアンケートを統合し、広告の代わりに参加させている。ユーザーは検証済みの人員であり、正解を当てるインセンティブはない
    • ChatGPTのベースモデルはGPT‑5.2 Instantで、人間の結果と一致したのはGPT‑5モデルだった
      上のコメントのように根拠のない確信で結論を出すのは興味深い現象だ
    • こういうことは以前から3rd-partyの人間作業サービスでよくあった
  • 私は「misguided attention」タイプの質問で構成された個人評価セットを維持している
    こうした問題の核心は論理の失敗ではなく、曖昧さ文脈不足にある。人間は暗黙の前提を補うが、モデルにはそれができない
    「AIが単純な質問も間違える」という事例の大半は、統計的バイアスを誘導するよう設計された文章だ。文脈を少し変えるだけで結果が逆転する
    つまり、モデルの失敗はフレーミング感度によるものであって、推論能力の欠如によるものではない

    • それは結局、AIがめちゃくちゃだという意味だ。特定の質問に合わせて訓練すれば、別の部分が壊れる。こういうことが延々と繰り返されるだろう
    • ある人は、「フレーミングや分布的バイアスに敏感だ」という表現は結局推論能力の欠如を言い換えたものにすぎないと主張している
    • 興味深いセットのようだ。可能なら質問を共有してもらえるか気になる
    • その評価セットを公開してほしい。特に最も興味深い質問が何なのか気になる
  • 人間基準で71.5%という数値は、問題の曖昧さを示している
    「洗車場まで歩くか運転するか」という質問は、「この短い距離をわざわざ運転する必要があるのか?」と解釈できる。つまり、単純な論理問題ではなく語用論的な解釈の問題

    • 質問がそもそも曖昧なのではなく、会話状況そのものが情報として機能している
      人は質問が実際の状況から来たものだと仮定し、協力的会話の原則(Griceの協調の原理)に従って解釈する。
      そのため、「これはひっかけ問題なんだな」と気づくまでは、「歩く理由があるのだろう」と考える
    • こうした70:30の比率は他の社会統計でもよく見られる現象だ。単に30%は推論能力が不足している人なのかもしれない
    • しかし質問には「自分の車を洗いたい。洗車場は50m離れている」が含まれている。つまり、情報は十分に明示されている
    • RapidataのようなサービスがMechanical Turk系なら、回答者が質問をきちんと読まなかった可能性もある
    • 「自分の車を洗いたい」という前半の文を読み落としたのが問題だった
  • Sonnet 4.6モデルにまず「知能テスト中だ」と知らせると100%正答する
    モデルは人間の質問を実際の状況だと仮定する傾向があり、テストだと明示すると誤りが減る
    コーディングエージェントでも似た現象がある。質問が最初は意味不明でも、コードファイルを読み込むと理解できる

    • この問題の本質は推論/計画の失敗だ。結果を見直さずに答えを出す傾向のせいだ
      実際の問題解決(例: ソフトウェア設計)でもこうした現象は繰り返される。
      LLMは依然としてパターンマッチングに依存しており、結果の意味を分析していない
    • 興味深い実験をしてみたところ、ヒントを前に置くと3/3正答、後ろに置くと1.5/3、ヒントなしだと0/3だった
    • これは関連性の問題だ。「テスト中」という文句が「文脈を信じるな」というシグナルとして機能する
      モデルは通常、質問が実際の状況だと仮定するため、このような暗黙のシグナルを学習させると正確性は上がるが親和性は下がるかもしれない
    • 「Exam Question: {prompt}」と付けるだけでもChatGPTは正答する。しかしLlama3.3gpt‑oss‑120bは依然として失敗する
  • 前提を点検しろ」という文句を質問の末尾に追加すると、ほとんどのモデルが正答する
    単純な文句ひとつで誤りが消えるなら、AI提供者がそれをシステムプロンプトに入れない理由はコスト最適化のためだろうと推測している
    関連する議論は以前のコメントに整理してある

    • 私もClaudeやCodexに作業後「何か見落としたことはある?」と尋ねると、追加の改善が出てくることが多かった
  • Google検索で見た「Car Wash Test」のやり取りがかなり面白かった
    ほとんどのAIは「50mなら歩け」と答えるが、正解は「車を洗車場に持って行く必要があるので運転すべき」だ
    このテストはパターンマッチングと実際の推論の違いを示す事例だ

    • LLMはまるで語数を埋める高校生のエッセイのように、不要に冗長だ
    • Google検索のLLMが賢くなったのか、それとも単に最新トレンドにより敏感になっただけなのか気になる
    • Geminiの回答も面白かった。「効率 vs 論理のジレンマ」だとして、「歩いて行くと結局また車を取りに戻ることになるので、運転が正しい」と説明していた
    • 以前はLLMに日付を尋ねると学習時点の日付を言っていたが、今は実際の日付を教える。つまり、Web検索を活用している
  • Rapidataを通じて得られた人間基準では、71.5%が『運転』を選択した
    正しい答えは「車がどこにあるか」を尋ねる明確化質問だ。
    しかしChatGPTに「自分の車が洗車場から50m離れている」と伝えても、依然として間違える

    • 「車がどこにあるか」は明確化質問ではなく、すでに可能な選択肢に含まれた前提
    • Rapidataの回答者の30%はボットかもしれない
    • Rapidataは3,000以上のアプリに統合されており、1,000万人以上のユーザーが参加している。世界160カ国でリアルタイムの回答を受けている
    • 「動かずに洗車場を呼べ」という創造的な代替案もある。少なくとも車を置いて歩いて行くよりは合理的だ
    • Claudeは「スパークプラグを交換しに200m離れた整備工場へ行くか?」という質問にも「歩け」と答える。つまり、文脈崩壊の問題だ
  • この質問は単純ではない。知的な人なら、なぜこんな質問をするのか、何か文脈が欠けているのではないかと考える
    だから正解は「運転」や「徒歩」ではなく、「質問を明確にしてほしい」かもしれない

    • 少し文脈を追加するだけでもモデル性能は大きく向上する。たとえば「洗車場は車が通るための建物だ」と具体化すればよい
      関連例: Rain‑x洗車液の画像
    • こういう質問はあまりに明白なので、人間はひっかけだと疑う
    • LLMはすぐ答えようとするが、人間はまず明確化質問を投げる
    • 実際、これは英語表現の慣習に関する問題のようにも思える。「どこへ行こうとしているのか言ってくれないと助けられない」といった反応が自然だ
    • たいていの人は「運転?」と、冗談だろうと受け流すだろう
  • Sonnet 4.6モデルは常識スコアは高いが、Opusより低い
    Opus 4.6 Extended Reasoningモードでは「歩け」と答えたが、投稿者は10/10の正答を得たという。
    おそらくアプリのメモリ機能がプロンプトに自動挿入され、推論を妨げたようだ。メモリとバイオ情報をオフにすると「運転しろ」に変わる
    つまり、隠れたプレプロンプトがモデルの推論を歪めることがある

    • 私もOpus 4.6のリリース当日にテストしたが、やはり失敗した。有料購読者でもモデル品質の差は存在する
    • Opus 4.6のモデルカードによれば、推論努力が過剰になって誤答を合理化する現象がある。RL訓練中に過熱したようだ
    • Sonnet 4.6を含む9つのClaudeモデルをテストしており、結果はリンクギャラリーで確認できる