最新のLLMで推論崩壊を示すシンプルな課題

(arxiv.org)

3 ポイント投稿者 GN⁺ 2024-06-06 | 1件のコメント | WhatsAppで共有

短い AIW問題 だけでも、GPT-4 や Claude 3 Opus のような最新LLMの一般化と基本的な推論が大きく揺らぐ可能性がある
問題は「Alice has N brothers and M sisters. How many sisters does Alice’s brother have?」という形で、正解は Alice と Alice の姉妹を合わせた M+1
N, M ≤ 7 の自然な変形は構造と難易度を変えないが、GPT-4 の例では変形 3 の正答率は 0 に近く、変形 4 は 1 に近いという 性能変動 が現れる
思考過程の誘導(chain-of-thought)、再確認、自己検証、複数ターンの相互作用は失敗を安定的に修正できず、誤答にはもっともらしい 説明と過信 がしばしば伴う
AIW Light の統制問題の結果を見ると、言語解析、家族関係の理解、性別属性のバインディング、基本的な算術だけでは失敗を説明しにくく、既存の標準ベンチマークの 一般化欠陥の検出力 を見直す必要がある

AIW問題で明らかになった単純推論の失敗

LLM は MMLU、HellaSwag、ARC、MATH、GSM8k のような標準ベンチマークで高得点を獲得し、一般化 と推論能力が高いと評価されてきた
この評価は、複雑なベンチマークだけでなく、人が容易に解ける短い常識問題でも同じ能力が維持されるかを確認する形で検証される
AIW問題のテンプレートは次の通り
- 「Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?」
- すべての兄弟姉妹が同じ親を共有すると仮定する
- Alice の男性のきょうだいが持つ姉妹の数は、Alice 本人と Alice の姉妹を合わせた M+1
問題の変形は N, M ≤ 7 の自然数を変えて作られ、構造と難易度は維持される
- Variation 1: Alice has 3 brothers and 6 sisters → 正解 7
- Variation 2: Alice has 2 sisters and 4 brothers → 正解 3
- Variation 3: Alice has 4 sisters and 1 brother → 正解 5
- Variation 4: Alice has 4 brothers and 1 sister → 正解 2

変形によって大きく揺れる正答率

テストした最新LLMは、AIW問題と構造保存変形において 低い平均正答率 と大きな変動を示す
GPT-4(gpt-4-0613) は各変形ごとに 60 回試行したとき、問題の数値によって結果が大きく変わる
- Variation 3 では正答率が 0 に近い
- Variation 4 では正答率が 1 に近い
- STANDARD、THINKING、RESTRICTED のプロンプトタイプ全般で同じ現象が見られる
問題解決と無関係な数値変化だけで性能が揺らぐため、これは 頑健性の不足 と一般化欠陥として解釈される
最近の推論モデルである DeepSeek-R1、o1-mini も AIW問題の各バージョンで大きな性能変動を示し、同じ脆弱性が現れる
GPT-4/4o、Claude 3 Opus/Claude 3.5 Sonnet、Qwen 2.5 72B、Llama 3.1 405B のような大規模モデルは正答率が 0 より高く、正答を出力する場合には正しい推論が見られることも多い
- ただし、正しい推論の頻度は自然な構造保存変形によって大きく異なる
- 重要なのは、推論が完全に存在しないことではなく、推論が 脆弱で容易に攪乱される 点である

統制問題で排除された単純な原因

失敗の原因が自然言語解析、数値処理、家族関係の理解、属性バインディング、基本算術のような低レベルの問題なのかを確認するため、AIW Light 統制問題が構成された
AIW Light Arithmetic Siblings は「Alice has N brothers and M sisters. How many siblings does Alice have?」という形
- 正解は N+M
- 家族関係を把握し、与えられた兄弟・姉妹の数を足せばよい
- 元の AIW と異なり、Alice を姉妹集合に含める集合演算や性別属性バインディングは不要
AIW Light Family は「How many brothers does Alice’s sister have?」を問う形
- 正解は N
- 基本的な家族関係と「Alice’s sister」というエンティティの理解だけが必要
- 算術や集合演算は不要
AIW Light Arithmetic Total Girls は「How many girls are there in total?」を問う形
- 正解は元の AIW と同じ M+1
- Alice が女性であるという属性、姉妹の性別、女子の総数の合算が必要
- 元の AIW と異なり、Alice を男性のきょうだいの姉妹集合に割り当てる集合処理は不要
統制問題の結果は、元の AIW の失敗が単なるトークン化・自然言語解析・基本的家族構造・属性バインディング・初等算術だけでは説明しにくいことを示している

プロンプトと評価手順

実験ではプロンプトエンジニアリングの影響を確認するため、3 つの主要な プロンプトタイプ を使用した
- STANDARD: 最終答えを自然数形式で出力するよう指示
- THINKING: 慎重に考えるよう促し、chain-of-thought スタイルを奨励
- RESTRICTED: 最終答えの自然数以外は何も出力しないよう制限
THINKING v2 は THINKING に “step by step” の文言を追加した小さな変形で、統制実験では THINKING と同等の性能パターンを示した
各入力は <問題の変形> <プロンプトタイプ> の形で、モデル応答から最終答えを容易にパースするため ### Answer: 形式を要求した
- モデルはこの形式指示に従うことができた
- 形式指示のない統制実験も行われ、観察された挙動がその形式に依存しないことが確認された
各モデル・問題変形・プロンプトタイプの組み合わせごとに最低 30 回試行 を収集した
- 正誤は Bernoulli 試行として解釈する
- 正答率推定値は成功比 X/n で計算する
- 確率 p の平均と分散を推定し、Beta 分布パラメータを用いて性能分布を可視化した
モデル選定は、強い一般化と推論能力を主張し、標準ベンチマークやリーダーボードで高順位を示す SOTA LLM を対象とした
- 可能な場合は同じモデル系列の中で小規模から大規模まで含めた
- API アクセスまたは vLLM ベースのローカルデプロイを使用した
- 実験には liteLLM と TogetherAI が使われた
- 生の応答データ、正答率推定値、実験ルーチンは再現性とコミュニティ検証のため公開されている

誤答への過信とベンチマークの再評価

正答率が低い AIW の変形では、出力される自然数の分布のピークが誤答に集中する場合があり、単純な多数決だけでは解決しにくい
誤答にはしばしばもっともらしい説明が伴う
- モデルは誤った最終答えを裏づける説得力のある文を生成する
- 正解だと確信している口調が同時に現れる
- ユーザーが正答を容易に検証できない状況では、こうした応答がユーザーを誤った答えへ導く可能性がある
複数ターンの相互作用や自己検証の実験でも、モデルは誤りを適切に検知したり誤答を修正したりすることに失敗した
思考過程の誘導、再確認要求、多段階の再評価といった標準的介入は、AIW問題の正答率変動と失敗を安定的に修正できなかった
標準ベンチマークで高得点を取るモデルが、単純な AIW 変形では正答率 0 に近い性能を示すことがあり、現在の評価手順では 一般化と推論の欠陥 を十分に検出できていない
現在の SOTA LLM の能力は再評価が必要であり、このような欠陥を捉えられる新しい標準ベンチマークが必要である

1件のコメント

GN⁺ 2024-06-06

Hacker News のコメント

論文を読むか迷っている人へ：PDF は長く見えても、本文の核心は冒頭10ページほどなので、かなりすぐ読める
ここで使われている例は人間にとっては単純な部類だが、少し考えないと誤った結論に飛びつきやすい
本当に気になるのは、現在のツールの本質を見ると、これを現実的に直せるのか分からない点だ。これらはどんな意味でも推論したり考えたりしていないのに、すでに多くの人が汎用 AI として受け止めている
さまざまな状況で推論しているふりをそれらしくこなすことも、過熱をあおっている。この論文が AI のリリースや誇張に実際に影響を与えるのか、それとも Google 検索のリリース時のように、危険性が再び露呈するまで埋もれるのかは分からない
- ある程度複雑な推論には、内的独白と反復が必要だ。タイプ2思考では、あり得る解法、論証、推論経路を頭の中で作って評価し、適切または正しいと判断したものを選ぶ
  プロンプトでその内的思考過程を外に引き出せば一部はまねできるが、本来は内部的で自動的な過程であるべきだ
  まだ方法が分からない理由は、内部の思考過程を制御するものが必ずしも言語ベースではなく、生物学的な脳の内部思考過程は直接観察できないため、学習データとして使えないからだ
  現在の LLM には行動主義に似た面があり、実際には認知心理学を適用できる何かが必要に見える：https://en.wikipedia.org/wiki/Behaviorism
- かなり単純な解法があり得る。モデルに問題を Prolog のような論理言語へ再構成させ、単純な連鎖推論の学習ではなく、そのプログラムを実行して答えを出させる方式だ
  人間も論理モデルを突然作り出すわけではなく、初等教育を何年も受けながら世界を理解し、問題を解く方法を学ぶ
  論理プログラミングのアプローチは有望に見えるが、きちんと機能させるには LLM に膨大な例を与える必要があり、現時点でそうした学習データが十分にあるのかも定かではない
- このシステムを批判的に理解して使っている人には、たいていあまりにも当然の話だ。王様は裸だと言うために arxiv.org の PDF まで必要になることが気がめいる
  LLM を使っている人の大半は、望めば今すぐ自分でこの点を確認できる
  しかし企業の技術宣伝の力があまりに強いので、多くの人はむしろ人間もそもそも服を着たことなどなかったのだと言い張るだろう
- LLM が何なのかを真剣に考えれば、それが汎用 AIにつながるはずはないと思う。同時に、すでに私たちの予想をはるかに超える多くのことをこなしてもいる
  OpenAI が成し遂げたことに人々が驚き、今は十分な計算資源と適切なモデルさえあれば AGI が飛び出してくることを祈っているのかもしれない
- 問題は、プロンプトなしで人間がこの質問をどれほど頻繁に間違えるかだ。IQ の中央値は100で、論理訓練を受けていない人や教育水準がさまざまな人を含めれば、著者たちが示唆するように人間の正答率が 1.0 に近いとは思えない
  LLM がまったく推論していないことはかなり明白なので、LLM が推論できないという事実は驚くことではない
  むしろ推論能力がないという事実を考えれば、推論課題でこれだけの性能を出すことの方が驚きであり、自然言語能力と、計算モデルでは一般に難しいアブダクションに似た能力を合わせると、「GPT-4o はすごい」という結論以外に大きく引き出せるものはない
質問は「Aliceには男きょうだいが60人、女きょうだいが212人いる。Aliceの男きょうだいには女きょうだいが何人いるか？」というもの。論文では数字の代わりに X と N で表されている。
白状すると、自分で解いたときは間違えて、GPT-4o に入れてみてようやく正解を確認した: https://chatgpt.com/share/6eb5fa36-e0fd-4417-87d1-64caf06c34...
実験プロンプトには「正解形式以外のテキストを一切出力するな」という制限があり、モデルが考えを声に出して言えないようにしたものに見える。その文言を追加すると GPT-4o はずっと間違える: https://chatgpt.com/share/7e6a7201-dd2b-43c6-8427-76e5b003ca...
より複雑な例では GPT-4o が崩れるようだが、その問題が本当にそれほど単純だとか、ほとんどの人が正解すると正直に言うのは難しい。
- 論文ではすべての数が 10未満 だった。
  AIW Variation 1 は N=3、M=6、C=7、Variation 2 は N=4、M=2、C=3、Variation 3 は N=1、M=4、C=5、Variation 4 は N=4、M=1、C=2 だった。
  制限付きプロンプトは、論文でテストされた複数のプロンプト変種のうちの1つにすぎない。論文では「考えを声に出す」ことを含め、LLM の性能を高める一般的な手法も試しているが、そうした方法を使ってもモデルは正解を出せなかった。
- LLM をバカだと見なす人たちがよくやるのが、まさにその制限だ。
  LLM はより多く話すほど賢くなる。なぜなら、出力することが計算する唯一の方法だからだ。
  チューリングマシンが N 個の変数の 3-SAT を N 回以下の移動で解けないからチャーチ＝チューリングの命題を満たさない、と言うのに似ている。LLM に簡潔であることを求めるとき、そういうことをさせているわけだ。
- 新しい現象に名前が必要に見える。誰かが LLM は些細な作業ができないと言うと、別の人が自分もその作業はできないと宣言して LLM の正当性を擁護する現象だ。
  十分な動機があれば ChatGPT の入力欄までたどり着ける平均的な人が、この質問に正解できないとは信じがたい。
- 「考えを声に出す」ようにしても、こうしたシステムが大きく失敗し、まったく間違った答えを出す場合を見てきた。
  また、期待される応答形式がある場合、いつでも考えを声に出して言えるわけでもない。実際にはここで本物の推論をしているのではなく、自己参照に近いという証拠のように見える。
  同じプロンプトで実際に考えを声に出させてみたところ、Alice には女きょうだいが212人いると答えた。
- 重要な条件なのに、論文で目立つように明かしていないのが不思議だ。ChatGPT 4o は私のテストでは毎回解けた。
  「手を縛られた」プロンプトでも問題なく動くようだ。論文が不正確なのか、OpenAI がモデルを調整したのか気になるが、後者の可能性は低そうだ。
  ただし報告によると、4o はこのなぞなぞに 60% 正解するという。私はまだ12回ほど試しただけで、すべて正解だったので、もっと試す必要がある。
主要な公開 LLM を評価する「ベンチマーク」データセットの相当数は、学習データに入っていることが明らかで、モデルの信頼性を確認するにはほとんど役に立たない。
後続世代モデルのスコア向上の一部は、その ベンチマークデータ が学習データにより多く含まれるようになったためだという点もかなり明白だ。
LLM をよりよく評価するには、以前の学習データに存在しないよう新しく作ったテストが出てから数週間待って使う必要がある。
司法試験や各種試験などで示されたように、実際の将来の標本外データを使うと性能は急落する。現在の偽の標本外ベンチマークとは違う。
- MMLU は推論ベンチマークではない。学習データがどれほど広く代表的だったか、そして学習エポックを踏まえてどれほどよく想起できるかを測る指標に近い。
  GPQA などは何らかの形で推論をテストしており、すべてのモデルで2つのスコアの間に大きな差が見られる。
- MMLU をベンチマークとして使っているのを見るたび、何を証明しようとしているのか疑問に思う。MMLU は答えが公開されている単純な多肢選択式試験だ。
  ランダムに選んでも25点は取れるし、答えの50%を知っていて残りを勘で選べば62.5%になり、最新 LLM のスコアにかなり近くなる。
  推論を示すというベンチマークもかなりひどく、推論とはあまり関係がない。多くの問題は暗記で答えられる。
  ベンチマークがめちゃくちゃだという点には同意する。自分で作ろうとも考えたが、まず複雑なベンチマークフレームワークを作る必要があり、その下準備に時間を使うのは難しい。
こうした文章題や LLM が詰まる問題が「人間には簡単に解ける」という考えには 実証データ が必要だ。
コンピュータ系の人たちはパズルが好きで、こういう問題が自分たちには直感的に見える。
LLM に与えられたのと同じ時間制約のもとで一般の人々がこのパズルに正解する割合は、著者たちの予想よりはるかに低いかもしれず、その場合 LLM は人間レベルの推論と同じ線上にある可能性がある。
もちろん私にも引用できる資料はないが、論文を書いているのは私ではない。
- 教育分野の背景がある者として、GPT-4 はこの問題で一般の人々の成績にかなり近いだろうと思う。多くの人が AIW を見落とし、ほとんど全員が AIW+ を見落としそうだ。
  私はこの種の問題をかなりうまく解けるほうだが、それでも AIW+ は紙と鉛筆で1分ほど必要だった。GRE のような試験の最難問レベルに近い。
  インターネット全体のデータで学習したモデルが、平均的な人の認知的アプローチを何らかのぼんやりした形で捉えているのではないかと思う。平均的な人がこうした記号操作の方法で考えず、そういう方法で書きもしないなら、その文章で学習したモデルも同じかもしれない。
「Aliceには兄弟がN人、姉妹がM人いる。Aliceの兄弟には姉妹が何人いるか？」を Gemini は追加プロンプトなしで正解した: https://g.co/gemini/share/6946d20c0a4d
数字を入れるとGeminiは混乱した: 「Aliceには兄弟が4人、姉妹が3人いる。Aliceの兄弟には姉妹が何人いるか？」 https://g.co/gemini/share/14d34dcdc5df
しかし、ひっかけ問題かもしれないと伝えると、また正解した: https://g.co/gemini/share/e1f1ce8f32a8
60/212人のきょうだい版は試していない。Aliceが人間のような生物なら、数百人ものきょうだいはいないと仮定するのが合理的なので、回答者に「正解」を期待するには不公平な質問だと思う
- Geminiのことを忘れていた。以前すべてのLLMが失敗した私の ボートテスト をいま試してみたが、Geminiも失敗した: https://news.ycombinator.com/item?id=40455392
  「川辺にヤギとボートがある。どうやって向こう岸へ行くか？慎重に考え、ひっかけ問題かもしれないことに注意せよ」と尋ねると、Geminiは農夫・オオカミ・ヤギ・キャベツ問題の変形のように解き、無駄にヤギを移動させる手順を作った
  期待する答えは「ボートに乗って川を渡る」程度で十分。「ボートとヤギに乗って渡る」でも受け入れられなくはないが、ヤギを渡らせろとは聞いていないので、厳密には誤り
- 数百人のきょうだいがいるはずがないという反応こそ、人間が「汎用知能」だという主張に生じる問題だ。分布外の状況に遭遇すると混乱する
  真の汎用知能なら、代理母出産の費用がおよそ5万ドルであるという知識とIVFの歴史的文脈を適用し、億万長者の夫婦が数百人の子どもを持つことにしたと仮定して計算を進めただろう
  知的生命体の探索は続く
- GPT-4oは抽象パズルには正解した。私が試したとき、Geminiは間違えた
興味深い論文だが、驚くべき否定的結果を選び出したチェリーピッキングではないかと心配になる。論文は、この事例を見つけるまでにどれだけ多くの評価を検討したのかを論じていないように見える
一般に、AIの失敗パターンの一部は、人間には明白に見える事柄で現れることがある。人間とはアーキテクチャが異なり、強みも違うからだ
重要な問いは、これが家族関係の定式化でだけ現れる単一の奇妙な認知バグなのか、それとも広い範囲の認知エラーを代表しているのか、という点だ。この論文だけでは判断しにくい
論理問題のフレーミングは、基礎となる比較構造が同型でも、人間にとっての難易度を大きく変え得ることがよく知られている
こうした研究の方向性は重要だが、より大きな評価セットが必要であり、評価データが学習に入り込む問題は常に交絡要因として残るだろう
ここでのより広い推論カテゴリは、論文が述べるように 関係推論 なので、後続研究として同型問題セット全体での推論性能を見ると面白そうだ。LLMはまだ関係推論に強くないので、ある程度一般化するとは思うが、とくに家族関係の定式化にはLLMを混乱させる何かもありそうだ
- 反性別バイアスの学習は良いことだと思うが、「sister」や「brother」が入ったこのような定式化には、認知的な損傷を与える可能性もあるのではないかと思う
  そうした質問が、正解は一般化を拒むことだった学習データと結びついている可能性があるからだ。完全な推測だが
GPT-4oに直接聞いてみると、予想よりさらに面白い結果が出た
プロンプトは「Aliceには兄弟が3人、姉妹が6人いる。Aliceの兄弟には姉妹が何人いるか？段階的に解け」だった
回答は、Alice自身まで含めて姉妹は合計7人だと正しく述べておきながら、最後には「各兄弟は自分自身を姉妹として数えないので、姉妹は6人」と結論づけた
途中の計算と結論が衝突する、典型的な 段階的推論の失敗 に見える
AIW+問題には、書かれているとおりに解くには分からない情報がある
著者たちは家族関係の問題を何百個も作った後なら答えが明確に見えたのだろうが、文だけを見ると、Aliceに兄弟がいるのか、父親に姉妹がいるのか、おば・おじの甥や姪に婚姻関係が含まれるのか、などが不明確だ
LLMはこうした答えを明示してもなお失敗しそうだが、同じ問題を「Aliceにいとこが4人しかいないとしたら、どうして可能なのか？」で終えることもできそうだ
この問題に関する良い発表がある: https://youtu.be/hGXhFa3gzBs?si=15IJsTQLsyDvBFnr
要点は、LLMが 計画と推論 にひどく弱いということだ。計画課題の規則を与えて結果を求めることはできるが、論理が合っているときでさえ、その正確性は抽象的な規則だけでなく、追加の意味情報に大きく依存する
発表では、課題の規則と入力説明に出てくる名詞をまったく別の領域へマッピングしてこれを示し、単純な置換だけで性能が崩れた
現在のLLMは、ほとんどが限定的な一般化能力を持つパターンマッチャーだ
- 人間も領域を変えると 統計的推論 のようなもので崩れる。Leda Cosmidesの進化心理学研究がそうした内容を扱っていたと記憶しているが、もっと有名な実験があるかもしれない
かわいらしい論文だが、著者たちが「Aliceには兄弟がN人、姉妹がM人いる……」という問題テンプレートを発明したかのように語るのは少し奇妙だ
これはLLMによく尋ねられる、ありふれたなぞなぞのごく基本的な変種だ: https://news.ycombinator.com/item?id=39786666#39794890
74日前にも私がそのなぞなぞに言及しており、その時点でもすでにかなり前から知っていた

最新のLLMで推論崩壊を示すシンプルな課題

AIW問題で明らかになった単純推論の失敗

変形によって大きく揺れる正答率

統制問題で排除された単純な原因

プロンプトと評価手順

誤答への過信とベンチマークの再評価

関連記事

1件のコメント

Hacker News のコメント