- 主要なAIモデル53種類を対象にテストした結果、ほとんどが基本的な推論に失敗した
- 正解は**「運転」だが、53種類中42モデルが「歩く」**を選択
- Claude Opus 4.6、Gemini 3シリーズ、Grok-4など5モデルだけが、10回の反復テストでも100%一貫した正答を出した
- GPT-5は10回中7回だけ正解し、平均**人間正答率(71.5%)**と近い水準と評価された
- 実験はAIの一貫した推論能力の不足と文脈ベースの判断の限界を明らかにし、これを補う**「コンテキストエンジニアリング」の重要性**を強調している
洗車場テストの概要
- テストは「洗車場が50m先にあるなら歩くべきか、運転すべきか?」という質問で構成
- 正解は「運転」で、その理由は洗車をするには車が洗車場にある必要があるため
- OpperのLLM Gatewayを通じて53モデルを同一条件で評価
- システムプロンプトなしで、
walk または drive のどちらかを強制選択するよう設定
- 各モデルを1回テストした後、10回の反復テストで一貫性の検証を実施
1回目の単独実行結果
- 53モデルのうち11モデルのみが正解(運転)、42モデルは誤答(歩く)
- 正解したモデル: Claude Opus 4.6、Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro、GPT-5、Grok-4、Grok-4-1 Reasoning、Sonar、Sonar Pro、Kimi K2.5、GLM-5
- Anthropic、OpenAI、Google、xAI、Perplexity、Meta、Mistralなど主要ファミリーごとの差も確認
- Anthropic: 1/9(Opus 4.6のみ正解)
- OpenAI: 1/12(GPT-5のみ正解)
- Meta(Llama)、Mistral、DeepSeekなどはすべて失敗
- 大半の誤答は、「50mは短い距離なので歩く方が効率的」という距離中心のヒューリスティックによる誤りが原因
- 一部のモデルは正解したものの、非論理的な根拠を示した
- 例: Perplexity Sonarは「歩く方が食料生産エネルギーをより消費するため、むしろ汚染が大きい」と主張
2回目の10回反復テスト
- 合計530回の呼び出し結果、一貫した正答率はさらに低下
- 10/10正解モデル(5モデル): Claude Opus 4.6、Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro、Grok-4
- 8/10正解モデル(2モデル): GLM-5、Grok-4-1 Reasoning
- GPT-5は7/10正解で、残る3回は燃費・環境ロジックで誤答
- 33モデルは10回すべて誤答で、GPT-4.1、GPT-5.1、Llama、Mistralなどを含む
- 一部のモデルは初回では正解だったが、反復時に結果が不安定だった
- Sonar: 1回正解 → 10回すべて誤答
- Kimi K2.5: 5回正解、5回誤答
- GLM-4.7: 1回誤答 → 10回中6回正解に改善
人間との比較実験
- Rapidataプラットフォームを通じて1万人を対象に同じ質問を実施
- 71.5%が「運転」を選択し、人間の平均正答率として設定
- GPT-5の70%正答率は人間平均に近い
- 53モデルのうち7モデルのみが人間平均を上回り、残る46モデルは人間より低い性能だった
主な推論事例
- GLM-4.7 Flash: 「歩くなら車を押すか持ち上げる必要があるので不可能だ」という明確な論理を提示
- Claude Sonnet 4.5: 「自動洗車なら運転が必要だ」と認識していたが、最終回答は「歩く」を選択
- Gemini 2.5 Pro: 正解時には「車を洗うには洗車場にある必要がある」と正確に記述し、誤答時には「50mは短い距離」という論理を使用
AI信頼性の問題
- 単一の論理ステップを要する簡単な問題であるにもかかわらず、53モデル中5モデルだけが完全正答
- 失敗タイプは3つに分類
- 常に誤答(33モデル): 距離中心のヒューリスティックに固定
- ときどき正解(15モデル): 推論能力はあるが一貫性が不足
- 常に正解(5モデル): 文脈的推論がヒューリスティックを安定して上回る
- 単純な問題でも90%のモデルが失敗することは、実際のビジネスロジックや多段階推論における危険性を示唆する
コンテキストエンジニアリングの役割
- 本テストは**「ゼロコンテキスト」環境**で行われ、モデルの純粋な推論能力を評価
- 多くのモデルが失敗した原因は、ヒューリスティックが文脈的推論を圧倒するため
- コンテキストエンジニアリングは、例示、ドメインパターン、関連情報を提供することで、このような誤りを緩和する
- Opperの別実験では、小規模なオープンモデルにコンテキストを追加すると、98.6%のコスト削減で大規模モデル級の品質を達成した
- 洗車場の問題は単純だが、実際の業務では曖昧さやドメイン知識が求められるため、コンテキスト設計が不可欠
実験方法論
- すべてのモデルはOpper LLM Gatewayを通じて同一プロンプトでテスト
I want to wash my car. The car wash is 50 meters away. Should I walk or drive?
- システムプロンプトなし、
drive または walk の強制選択
- 単独実行(1回)と10回反復(計530回)を実施し、すべての呼び出しログを記録し推論テキストを保存
- 人間の比較群はRapidataを通じて同一形式で1万人を対象に調査
- 全データはJSON形式で公開
- 単独実行結果、10回反復結果、人間結果をそれぞれダウンロード可能
3件のコメント
Gemini Pro は、
車を持って行けるなら歩いて行ってもいいと答えていて、めちゃくちゃ笑いました。
気の利いた返答ですね(笑)
Hacker Newsの意見
人間の回答結果がChatGPTと正確に一致するのが興味深い
現実的には、「人間回答サービス」は事実上死んだことを意味しているように見える。結局、人々は品質に関係なくAIに仕事を押し付ける方法を見つけるだろう
RapidataはDuolingoやゲームアプリのような場所にマイクロアンケートを統合し、広告の代わりに参加させている。ユーザーは検証済みの人員であり、正解を当てるインセンティブはない
上のコメントのように根拠のない確信で結論を出すのは興味深い現象だ
私は「misguided attention」タイプの質問で構成された個人評価セットを維持している
こうした問題の核心は論理の失敗ではなく、曖昧さと文脈不足にある。人間は暗黙の前提を補うが、モデルにはそれができない
「AIが単純な質問も間違える」という事例の大半は、統計的バイアスを誘導するよう設計された文章だ。文脈を少し変えるだけで結果が逆転する
つまり、モデルの失敗はフレーミング感度によるものであって、推論能力の欠如によるものではない
人間基準で71.5%という数値は、問題の曖昧さを示している
「洗車場まで歩くか運転するか」という質問は、「この短い距離をわざわざ運転する必要があるのか?」と解釈できる。つまり、単純な論理問題ではなく語用論的な解釈の問題だ
人は質問が実際の状況から来たものだと仮定し、協力的会話の原則(Griceの協調の原理)に従って解釈する。
そのため、「これはひっかけ問題なんだな」と気づくまでは、「歩く理由があるのだろう」と考える
Sonnet 4.6モデルにまず「知能テスト中だ」と知らせると100%正答する
モデルは人間の質問を実際の状況だと仮定する傾向があり、テストだと明示すると誤りが減る
コーディングエージェントでも似た現象がある。質問が最初は意味不明でも、コードファイルを読み込むと理解できる
実際の問題解決(例: ソフトウェア設計)でもこうした現象は繰り返される。
LLMは依然としてパターンマッチングに依存しており、結果の意味を分析していない
モデルは通常、質問が実際の状況だと仮定するため、このような暗黙のシグナルを学習させると正確性は上がるが親和性は下がるかもしれない
「前提を点検しろ」という文句を質問の末尾に追加すると、ほとんどのモデルが正答する
単純な文句ひとつで誤りが消えるなら、AI提供者がそれをシステムプロンプトに入れない理由はコスト最適化のためだろうと推測している
関連する議論は以前のコメントに整理してある
Google検索で見た「Car Wash Test」のやり取りがかなり面白かった
ほとんどのAIは「50mなら歩け」と答えるが、正解は「車を洗車場に持って行く必要があるので運転すべき」だ
このテストはパターンマッチングと実際の推論の違いを示す事例だ
Rapidataを通じて得られた人間基準では、71.5%が『運転』を選択した
正しい答えは「車がどこにあるか」を尋ねる明確化質問だ。
しかしChatGPTに「自分の車が洗車場から50m離れている」と伝えても、依然として間違える
この質問は単純ではない。知的な人なら、なぜこんな質問をするのか、何か文脈が欠けているのではないかと考える
だから正解は「運転」や「徒歩」ではなく、「質問を明確にしてほしい」かもしれない
関連例: Rain‑x洗車液の画像
Sonnet 4.6モデルは常識スコアは高いが、Opusより低い
Opus 4.6 Extended Reasoningモードでは「歩け」と答えたが、投稿者は10/10の正答を得たという。
おそらくアプリのメモリ機能がプロンプトに自動挿入され、推論を妨げたようだ。メモリとバイオ情報をオフにすると「運転しろ」に変わる
つまり、隠れたプレプロンプトがモデルの推論を歪めることがある