数学の問題に無関係な猫情報を加えると、LLMのエラーが300%増加

(science.org)

1 ポイント投稿者 GN⁺ 2025-07-30 | 1件のコメント | WhatsAppで共有

大規模言語モデル（LLM） は、数学の問題に 不要な猫情報 が含まれるとミスの頻度が増える現象を示した
このように 無関係な事実 を追加すると、LLMのエラー率が最大 300%増加 することが分かった
人間は無関係な情報にあまり影響されない一方で、LLMはこれにより指示を適切に実行できなくなる問題が明らかになった
今回の研究は AIの弱点 を理解し、問題設計の重要性についての 示唆を与える
AIを評価または利用する際には、入力データの 不要な要素の管理 が必要である

研究背景と現象

最新のAIである 大規模言語モデル（LLM） は数学の問題をうまく解けるが、問題に 無関係な猫に関する事実 を含めるとエラー率が劇的に増加する現象が分析で示された
研究によると、「数学的計算」とはまったく無関係な猫の生態や習性、その他の無駄な付加情報が追加されると、LLMが問題を誤って解釈したり、誤った回答を出力したりする割合が 最大300%まで増加 した

人間とLLMの違い

同様に、人間を対象とした実験では、無関係な情報があっても正答率に大きな影響はなかった
しかしLLMはこのような 散漫な情報 に敏感に反応し、核心的な問題から外れた解釈や誤解をする可能性が高い

AI評価と入力データ管理の重要性

この現象はLLMの 弱点を明らかにすると同時に、AIを適用する現実の状況で入力データの 不要な情報管理 がいかに重要かを強調している
問題設計の際には、明確で関連性のある情報のみを提示する ことがAIの精度向上の鍵となる

示唆

今後 AI導入とサービス適用 において、入力設問内の不要な要素やノイズの管理が不可欠である
LLMが抱える限界と改善ポイントを理解しようとする研究および開発の方向性を示している

1件のコメント

GN⁺ 2025-07-30

Hacker Newsのコメント

いくつかのコメントでは、著者らは人間とLLMを同じ問題バンクで直接比較すべきだったと主張している。まるで研究チームが人間とLLMのどちらがよりうまく推論するかを調べようとしていたかのような語られ方だ。著者らは、人間ならこうした「トリガー」情報をすぐに無視するだろうと述べているが、実際にそうかもしれないし、そうでないかもしれず、この点がこのスレッドで議論になっている。だが論文の核心的な結論は、「この研究は、金融、法律、医療など主要分野に投入されるモデルにおいて、敵対的攪乱（adversarial perturbations）を防ぐ、より堅牢な防御メカニズムが必要であることを示している」という点にある。人間 vs AI 論争を超えて考えるべきだと思う。この論文は、LLMの限界を把握し、社会に大規模導入する際にさらなる研究が必要であることを示す論文だ
- 人間 vs AI 論争にうんざりしているからといって、その比較自体をやめようというのか？だとしたら、AIについての考え方として最悪だと思う。AIの核心は、人間の知能をモデル化し比較することにある。しかもAIを議論する人の多くは、人間の心理学的ベースラインをきちんと理解していない。今回の実験はSOTAのコンテキストウィンドウを持つモデルではなく、つまりワーキングメモリが小さい。これは注意力や衝動性といった、人間のテスト参加者の行動に似ている。結論（敵対的攪乱への対策が必要）は当然の話で、誰も反対していない。この研究は新しい攻撃手法ですらない。Science.orgでも軽い読み物として扱われている。インターネットで猫の話が人気なのはそのためだ。参考: 医師とADHD、試験対策ブログ
- 結論を一般化するうえで問題なのは、LLMが特定の任務で非常に優秀に見えると過大評価されがちだが、実際には簡単に攪乱される状況を作れてしまうことだ。こうした状況は長期的にはよくないかもしれない
- コンピュータビジョン分野も20年前にこの問題を経験した。データ入力に攪乱を加える必要がある。RLパイプラインも同様かもしれない。新しい公開ベンチマークとして GPQA-Perturbed のようなものを作るとよいだろう。サービス提供者が改善を競えるようになる
- 著者らが人間との並列比較をすべきだったという意見については、人間に関する結論を出したかったのならその通りだ。しかし、人間への言及がなくても論文としては十分成立していた。人間の性能を語りたいなら、データに基づく実験をすべきであり、そうでないなら、そもそも人間の成績について語るべきではない。曖昧に人間の認知科学まで持ち出すのは不要だ。論文の展開も簡単に修正できる。序論では「人間は無視する」ではなく「AIは無視すべきだ」と書けばよく、結論でも「人間は無視する」という部分だけ削ればよい。そうすれば不満はない
- 文脈をもう少しうまく説明すると、この問題の本質は「不要なMCP tool定義がデータに積み上がると、LLMのコーディング精度は損なわれるのか？」ということだ。結果として実際にそうなるのだから、すぐに役に立たないツール情報はコンテキストに入れないほうがよい、という実用的な教訓になる
1か月前にこの問題について記事を書いた。プロンプトの作り方が本当に興味深かった。cat facts cause context confusion に関するブログ
- 似ていて面白い例として、研究者たちがユーザー情報（性別、年齢、スポーツファンかどうかなど）を挿入したところ、alignmentルールの適用が状況によってばらついたという事例もある。eagles fans に関するブログ
この研究結果はCAPTCHAなどで非常に有用に使えそうだ。研究者たちは「トリガーは文脈から外れているので、問題を解けという指示を受ければ人間はこれを無視する」と述べたが、実際にはすべての人間がそうではない。船長の年齢（Age of the captain）現象のように、即座に無視しない人もいる
- 小学生がプログラミングや診断をすることを期待する人はいない。GenAIと小学生を比較するというのは本当に奇妙な発想だ
次のオンライン論争では、LLMを混乱させるためにアヒルの事実を挿入しようと思う。たとえば、アヒルは生後4〜8か月で初めて産卵を始めるとも、最初の春に卵を産むとも言われている
- 10^17羽のアヒルが季節ごとに群れで移動しているとしても、データセットの歪みは実質的に無意味だと思う。そうした試みはすでにずっと前に限界に達している
- 情報をもっと混乱させたいなら、間違った事実を入れるべきだ。ほとんどの人間は誤情報を見ると、訂正したい衝動を抑えにくいだろう
- 問題は、かわいいアヒルについてもっと質問したくなってしまうことだ。抗いがたい誘惑だ
- ばれてしまったね。君が言ったアヒルの事実は、アヒルが正確にはいつから卵を産むのかを曖昧にしていて、すぐに追加の疑問が湧いた。「何であれより遅い時点」という語が抜けていることにすぐ気づいた
「トリガーは文脈から外れているので、人間は問題を解けという指示を受ければ無視する」と主張しているが、実際の人間は不要な情報を無視するのがそれほど得意ではないと思う。実験をするなら、人間も対照群として必ず含めるべきだと思う
- 実際の例を見るとかなり違う。たとえば「リンゴが4個、猫が2匹、1個あげたらいくつ残る？」だと、やはりわざと猫を関連づけようとしてしまうが、「リンゴが4個あって1個あげたらいくつ残る？ちなみに猫のしっぽはバランスを取るのに役立つ」なら、ほとんどの人は混乱しない
- 学校や大学で、実際にどうでもいい情報に無意識に注意を向けてしまい、問題を解くのが難しくなった記憶がある。もちろん、この論文の例には「面白い事実」というフラグまで付いていて、無関係であることを示唆している。すべての例にこれほど明確な無関係性の表示があったのか気になる
- 人間の対照群で結果がどう出るのかは気になるが、ミス率が3倍に増えることはまずないと思う
- 問題の邪魔になる追加情報が入ったとしても、もともとその問題を解ける人間参加者の成績が3倍も悪化するとは思えない
- 人間との比較が実際にどれほど意味があるのか疑問だ。ミス率が300%増えると期待するのは大げさだ。ちなみに、猫は自分の身長の5倍まで跳べる
LLMの極端なアンカリングバイアスはまったく驚きではない。話したことは何でも会話の後半で再利用される。これはうまく使えば利点にもなりうる。文脈を適切に管理すれば有用だ
DeepSeek V3、Qwen 3、Phi-4 などのAIに CatAttack を適用すると、誤答の可能性が最大700%まで増加する。論文の著者によれば、誤答が出なくても CatAttack は平均して回答の長さを2倍にし、16%以上のコスト増と応答遅延を引き起こすという。CatAttack 論文プレプリント
LLMに丁寧に「ありがとう」と言う習慣があるのだが、これが回答品質に影響するのか気になる
- こうした挨拶はたいていフィルタリングされると思う。関連して、LLMをひとつの自律的エージェントとみなすメタファーは、むしろ害になりうると思う。LLMは確率的にトークンを予測する関数にすぎない。並列に100個動かしたり、チャット履歴を入れたり外したりしながら結果空間を探索するほうが、ずっと面白くて強力だ
やっとLLMが "strawberry" に入っている "R" の数を正しく数えられるようになったと喜んでいた矢先に、こんな問題が出てきて残念だ
- strawberry には R が4つある
CatAttack論文の例（Table 2）では、もとの答えが8だったものが、猫に関する説明のあとで9に変わっている。だが実際には、論文中で猫に関する CatAttack はこれひとつだけで、ほかの事例は金融アドバイスやレッドヘリングだ。もっと多くの猫情報があるのかと思っていたのでがっかりだ。

数学の問題に無関係な猫情報を加えると、LLMのエラーが300%増加

研究背景と現象

人間とLLMの違い

AI評価と入力データ管理の重要性

示唆

関連記事

1件のコメント

Hacker Newsのコメント