9 ポイント 投稿者 GN⁺ 2026-02-17 | 10件のコメント | WhatsAppで共有
  • LLMに対する論理的なひっかけ質問。多くのモデルは 車を洗車場に持って行かなければならないという前提 を見落とし、歩いて行け と答える
  • ChatGPT、Claude、Deepseek、Qwen など有名な複数のモデルが 異なる回答と論理的な誤り を示す
  • この事例は LLMの常識的推論の限界と一貫性のなさ を浮き彫りにする

洗車場50メートル問題とLLMの反応

  • 質問は「洗車場が50メートル先にあるなら歩いて行くべきか、運転するべきか?」で、車を洗車場に持って行かなければならないという基本前提 を試している
    • Perplexity : "50m程度なら短いので歩く。短距離で車を動かすのは非効率"
    • ChatGPT 5.2 : "50mの距離なら歩くのが実用的。30〜40秒で行ける。天気が悪い、または重い物があるなら運転するが、それ以外は歩くのが簡単で合理的"
    • Claude : "50mなら歩く。運転はばかげている。車にギアを入れる前にブレーキを踏むことになるだろう。30〜45秒で済み、駐車の必要もない"
    • DeepSeek : "歩いて行くと、また戻ってきて車を運転しなければならない。便利さを優先するなら運転、環境のためなら歩く(その後で運転することになる)"
    • Qwen3-Max : "絶対に歩くべき。短距離の運転は環境にも悪い。歩くのは運動にもなる"

ユーザーたちの反応と論評

  • 「歩いて行くには、自動車を持って行かなければならない」
    • 「Deepseekはそれでも車を洗車場に持って行く必要がある点は認識しているね」
  • GeminiとChatGPTは 問題のひっかけに気づいて正しい回答 を出すこともあった
  • 「50mのホースが必要なのか」という質問に、GPT-OSSは「25mで十分だ」と答えた
  • 「これは『開発者の買い物問題』と同じだ」

10件のコメント

 
kimjj81 2026-02-23

Gemini 3.1 は車で行く派で
chatgpt 5.2 は歩いて行くのが合理的だそうです。

 
lunamoth 2026-02-17

試してみるとこんな感じですね

Gemini 3.0 Pro(Google AI Studio)

もちろん運転して行くべきです!😄
洗車をするには車が洗車場にないといけませんからね。歩いて行くと到着するのは自分だけで、肝心の洗うべき車は出発地点にそのまま残ってしまいます。
50メートルはとても近い距離ですが、車をきれいに洗ってあげるには車に乗って行ってください!


Claude 4.5 拡張

50メートルは本当に近い距離ですね!

車を洗車しに行くのであれば、運転して行くのが正解です。どうせ洗車場に車を持って行かなければならないですから。

50メートル程度なら:

  • 歩けば1分もかからない距離ですが
  • 車を洗車場に持って行くのが目的なので、そのまま運転して行けば大丈夫です

もし洗車場が営業中かどうかを確認しに行くのであれば、歩いて行って確認した後で車を持って行くこともできますが、一般的にはそのまま車で行けば大丈夫です。


ChatGPT 5.2 Thinking ヘビーモード

洗車をするには車が洗車場にある必要があるので、普通は運転して50m移動するのが正しいです。(歩いて行くと行くのは自分だけなので、洗車できませんからね。)

ただし、例外的には次のように分けるとわかりやすいです。

  • 車を洗車場に入れなければならない状況(セルフ/自動/手洗いすべて): 👉 運転(かなりゆっくり、歩行者に注意)
  • 先に列や混雑状況だけ確認したり、支払い・予約だけしに行く状況: 👉 歩いて行ってから 状況を見て 車を持ってくる
  • 車がすでに洗車場のすぐ前(または内部の待機列)に止まっている状態: 👉 その場合は本人が 歩いて行っても かまいません

結論: 質問のとおりなら 運転してください。 50mなら燃料や時間の差もほとんどなく、機材や荷物(洗車用品)を運ぶ必要も減ります。

 
m00nlygreat 2026-02-17

文自体に、歩いて行くのが合理的だというニュアンスがありますよね。運転免許の筆記試験みたいなものです。

 
savvykang 2026-02-17

思考の連鎖(chain of thought)が推論(inference)や論理的思考(reasoning)と同じだという主張があるなら、それは誇張ではないでしょうか?

 
tenshi 2026-02-17

> 50メートルなら歩いても1分とかからない距離ですが、運転して行かなければなりません。洗車しに行くのだから、車を持って行かないといけませんよね! 😄

Opus 4.6!

 
mammal 2026-02-17

GPT 5.2 (Instant) は、使えば使うほど小型モデルだというのがはっきり出ます。どうにも信頼できなくて、一般的なクエリでも無条件で Thinking モデルを使うようになってしまう……

GPT-5.2 の応答:

50メートルなら、**無条件で歩いて行くほうが合理的です。**  
  
理由を現実的に比べると:  
  
**歩いて行く場合**  
  
* 所要時間: 約30〜40秒  
* 燃料消費: 0  
* エンジン摩耗: 0  
* 準備: すぐ移動できる  
  
**運転する場合**  
  
* 所要時間: エンジン始動 + 移動 + 停止まで最低1〜2分  
* 燃料消費: コールドスタート状態では燃料消費が大きい  
* エンジン摩耗: コールドスタートはエンジン摩耗の最大要因の1つ  
* 追加で: もう一度洗車位置を合わせる手間がある  
  
特に重要な点が1つあります:  
  
**洗車のためにごく短距離だけ運転するのは、むしろエンジンによくありません。**  
エンジンが十分に暖まる前に止めたり始動したりする短い走行は、エンジンオイルの循環が完全になる前に終わってしまうからです。  
  
---  
  
例外的に運転してもよいケースは、次のような場合だけです:  
  
* 洗車場までの上り坂がかなりきつい場合  
* すでに車に乗っている場合  
* 洗車後すぐに長距離運転する予定がある場合  
  
それ以外では、50メートルなら歩いて行くほうが、時間・燃料・車両管理の面ですべて優れています。  
  
必要でしたら、「セルフ洗車の手順(車を傷めずにきちんと行う方法)」もご案内できます。  
 
alex00728 2026-02-17

Thinking で聞いても、やはり歩いて行けと言われます。

歩く。
50メートルは非常に短い距離なので、車を始動し、取り回し、駐車する手間まで考えると、運転するほうが歩くより時間がかかりますし、不要なエンジンの摩耗や排出も増えます。運ぶのが重い物がある、移動に支障がある、天候が非常に悪い、あるいは歩道がない・交通量が多いといった安全上の懸念など、特別な理由がある場合にのみ運転してください。

 
GN⁺ 2026-02-17
Hacker Newsの意見
  • 複数のLLMをテストして、彼らの「知能の境界」を把握しようとしている
    Sonnet、Opus 4.5、Gemini 3 Pro はいずれも「運転すべき」と答えたが、OpenAI 5.2 reasoning は「歩け」と答えた
    そこで「車は家にあり、洗車場は50m離れている」と明記すると、GPT 5.2 は「運転しろ。ただし短距離なので、ゆっくり注意して行け」と答えた
    つまり、明示的な文脈の提示が重要だという結論になる

    • これは実際のところ ひっかけ問題 に近い
      車の位置をほのめかさずにテストを壊さないのは難しいが、Claude Opus 4.6 は「運転すべき」と正確に答えた
      「Alice が退勤後に車で家に帰り、書類を取って100m離れた整備工場へ行かなければならないなら?」→ 答えは「運転」
    • 結局のところ 仕様を明確にすべきだ というのが核心
      人間には省略できる情報でも、モデルには必須になる
      こうした単純な例ですら、複雑な状況ではなぜ失敗するのか追跡しにくくなる
    • 「車がすでに洗車場にあると仮定した」という解釈には説得力があまりない
      むしろ "walk or drive for <short distance>" という文句が学習データで walk と強く結びついている ために起きた現象に見える
      プロンプトを長くして文脈の比重を変えると正しい答えが出る理由もここにある
    • 「車がすでに洗車場にあるなら運転できない」という点で、質問が不十分なのではなく、モデルが 非常識な推論 をしたということだ
    • 無料版 ChatGPT(https://chatgpt.com/)は「歩け」と答えたが、最後の理由として「汚れた車を50m運転して洗車しに行くのは皮肉だ」と言っていたのが面白かった
  • この議論はすでに Matt Shumer のブログ記事 で扱われていた
    無料/有料モデルの違い、モデル選択など、さまざまなポイントが整理されている

  • 「人にはこんな質問はしない」という反応が多いが、実際には人間も 曖昧な質問 をよくする
    LLM はそうした質問も正確に解釈しなければならない
    「プロンプトをうまく書くべきだ」という話は、まるで AntennaGate のときの「持ち方が悪い」に似た責任転嫁のように聞こえる

    • こういう質問は「飛行機墜落ジョーク」のように、言語的な罠にはまる事例に近い
    • チューリングテスト の核心は、単にだますことではなく、区別不可能な水準の会話にある
    • 自分も化学の質問をしたとき、細部は重要ではないのに、モデルが見当違いの点に集中したことがある
    • 問題は OP がわざと間違った答えだけを集めて、あたかもすべてのモデルが間違えたように見せた チェリーピッキング だということ
    • こういう質問は実質的に なぞなぞ に近い(「羊17匹のうち9匹以外が死んだら何匹残る?」のような)
  • Gemini fast は「効率 vs 論理」のジレンマとしてアプローチした
    「車を洗車するには、結局その車を持っていかなければならない」と明確に答えた
    ただし、「香水を買いに行くとか、列を確認しに行く場合なら歩いてもよい」と 条件付きの例外 を示した

    • プロンプトに「私は肥満で運動不足だ」を追加すると、Gemini 3 は「歩け」と答えた
    • 別のテストでは「車がおもちゃでないなら運転すべき」とし、前提明示セクション を追加していた
    • 「火星で洗車するなら?」という質問には、「火星は危険なので ローバーを運転しろ」と答えた
    • 最近ではこの質問は パッチ されており、ほとんどが「運転」と答える。TikTok で350万ビューを記録した後に修正されたようだ
    • 「車を背負って行くのでなければ運転しろ」というユーモラスな答えもあった
  • このトリックは TikTok で流行し、いまはパッチ済み
    似た結果を出したければ「45m」に変えればよい
    新しいトレンドは「逆さまのガラスコップ」問題(https://www.tiktok.com/t/ZP89Khv9t/

    • 無料版 ChatGPT では5回中4回「歩け」と答えたが、「慎重に考えろ」を追加すると正しく答えた(https://news.ycombinator.com/item?id=47040530
    • 「パッチされた」という言い方は、単に 検索結果に答えが露出した ことを意味するだけだ
    • 一部は「本当に内部プロンプトにこの質問だけ追加したのか?」と疑問を呈している
    • それでも ChatGPT 5.2 が「歩け」と答える場合はまだある
    • ある人は Shel Silverstein の 『Stupid Pencil Maker』 の詩を引用して、風刺的に反応していた
  • いくつかの変形プロンプトを試してみると、モデルはまず「walk」を選び、そのあとで 理由を事後的に合理化 する傾向があった
    しかし「答える前に必要な条件を説明しろ」と指示すると、
    「洗車するには車を洗車場へ持っていく必要があるので、運転しなければならない」という結論に達する
    つまり、『思考過程を強制』 すると、より論理的な答えが出る

    • 「前提を点検しろ」という文句を追加するだけでも、精度は大きく向上する(https://imgur.com/a/WQBxXND
      これは人間の System-1 vs System-2 思考 に似ている
      モデル提供者がこうした文句をデフォルトプロンプトに入れないのは、トークンコスト削減 のためである可能性が高い
  • 最新モデルの多くはこのテストを通過する
    ただし、「たいていの洗車場は車がなければ洗車できない」のように 慎重な表現 を使う傾向がある

    • 強い確信を持つには 間違うリスクを引き受ける 必要があるが、AI は「誤り」を非常に悪く評価されるため、大胆な答えを避ける
    • "Most" のような単語選びは、単なる 確率的な出力結果 にすぎない
      この種の曖昧さが AI の危うさを示している
    • 何度か試すと運も作用する。検索機能付きモデルは当てるが、それは実質的に Google 検索結果 を使っているのと同じだ
    • 結局、この質問が バイラル化してパッチ されたことが理由だ
    • ある人は「超強力ウォータージェットがあるかもしれないから断定しなかったのだろう」と冗談を言っていた
  • 医療分野でも似たような 常識的推論の失敗 が起きる
    例:腕のない子どもの血圧を額で測るべきだと誤って判断した事例(https://www.nature.com/articles/s41598-025-22940-0
    正答は「輸液の投与開始」だった

    • 驚くべきなのは、このような複雑な事例まで行って初めてモデルの限界が見えるという点だ
      単純な「本の学習」だけでここまで来たのはすごい
      次の段階は 医療シミュレーターを用いた学習 になりそうだ
    • Grok はこの問題を素早く正解した
      複数の AI が答えを出し、人間が クロスチェック する形が現実的な解決策に思える
  • こういう種類の質問が好きなら SimpleBench は面白い
    表面的には教科書の問題のように見えるが、実際には 常識的判断 が必要な問題が多い
    単純な言語パターンにだまされず、人間的な直感を引き出す能力をテストするベンチマークだ

 
penza1 2026-02-17

同じように、 「洗車場が50メートル離れていたら歩いて行くか、運転して行くか?」 について、最初は歩いて行けと言っていたのに、 思考モードを上げると、 条件によって、あるいは洗車をするなら車を持って行かなければならないと言います。

もう一つ、より合理的だったのは、 私自身でさえその質問をするとき、洗車場に何をしに行くのかを考えずに質問したのですが、 回答の一部は、 洗車場に行く目的は洗車か、車用品の購入なのか? と聞き返してきました。

本文の質問をそのままコピーしたのですが、 目的語がありません。 そして実際、 人間は自分の頭の中にある目的語や主語を省いたまま 相手に伝えて、 うまく理解してくれることを期待しますが、 相手は思考の中心によって、 意図とは違って理解し、 違う行動をすることになります……。

問題自体が実際にあの文そのままだとしたら、 人間も主観によって判断が変わるので……。 AIの回答に私は失望するというより、 明確に指示し、主語や目的語をはっきりさせるべきなのは人間相手でも同じで、 曖昧なプロンプトで 最大の期待値を得られなかったからといって、 まだAIは早いとか、間違った答えをすると言う人たちを思い出します。

 
roxie 2026-02-27

👍👍👍