LLMの数学的推論の限界を理解する

(arxiv.org)

2 ポイント投稿者 GN⁺ 2024-10-13 | 1件のコメント | WhatsAppで共有

GSM8Kのスコア上昇だけでは、LLMの実際の数学的推論能力を判断しにくく、GSM-Symbolic は同じ問題構造の複数の変形によって、より統制された評価を可能にする
このベンチマークはGSM8Kの問題を 記号テンプレート に変換し、名前・数値・条件節の数を調整しながら、100個のテンプレートから各テンプレートにつき50サンプルを生成し、ベンチマークごとに5,000個の例題を構成する
最新の公開・非公開モデル25種では、同じ問題構造でも数値だけが変わると性能が低下し、分散も大きくなった。また、GSM8Kの元スコアは25モデル中21モデルでGSM-Symbolic分布の右側に位置した
条件節が増えるほど正確度は下がり、分散は大きくなった。Gemma2-9B-it はGSM-M1の84.4%からGSM-P2の41.8%へ、GPT-4o は94.4%から88.0%へ低下した
無関係だが関連がありそうに見える節を追加した GSM-NoOp では、すべてのモデルの性能が大きく低下し、Phi-3-miniはGSM8K比で65.7ポイント低下して、必要な情報と不要な情報を安定して区別できなかった

GSM8Kだけでは捉えにくい数学的推論能力

GSM8Kは8,000問以上の初等数学の問題と解答を含み、7,473件の学習例と1,319件のテスト例で構成される
四則演算中心の比較的単純な数学問題であるため、Chain-of-Thought(CoT) プロンプティング評価に広く使われている
単一の固定テストセット構造では一度の正確度しか得られず、質問の変形や難易度変化に対するモデルの挙動を統制して見るのが難しい
広く使われるベンチマークほど、テスト例がモデルの学習データに偶然含まれてしまう データ汚染 の可能性も高まる
GSM-SymbolicはGSM8Kの問題を記号テンプレートに変換して多様な変形を作り、LLMの数学的推論性能を単一スコアではなく 性能分布 として評価する
GSM-Symbolicのテンプレートと生成データは apple/ml-gsm-symbolic で公開されている

テンプレート生成と評価方法

GSM-Symbolicは、GSM8Kテストセットの特定の例題をパース可能なテンプレートに変換する方式で作られている
- 変数、変数の範囲、正答が成立することを保証する条件を指定する
- 初等数学問題の性質上、答えが整数になるよう 割り切れること のような条件をよく使う
- 人名、食べ物、通貨のような一般的な固有名詞を活用してテンプレート生成を単純化する
テンプレート生成後には複数の自動検査を通す
- 元の変数値がテンプレート内に残っていないか確認する
- 元の値がすべての条件を満たすか点検する
- 生成された最終解答が元の問題の答えと一致するか確認する
- テンプレートごとにランダムな10サンプルを手動レビューする
- 全モデルの評価後、各問題について少なくとも2モデルが正解できなかった場合は再度手動レビューする
数値範囲は元のGSM8Kテストセットに近づけてある
- 目的は算術能力そのものではなく 論理的推論 能力の評価にある
- 付録の分析では、拡張された数値範囲がモデルの算術正確度が維持される境界内にあることを確認している
評価には2Bから27Bまでの公開モデル20種以上と、GPT-4o-mini、GPT-4o、o1-mini、o1-previewのような最新の非公開モデルが含まれる
全体で約500回の評価を行い、本編の実験では100個のテンプレートと各テンプレート50サンプルからなる5,000例のベンチマークを使用した
特に記載がない限り、GSM8Kや他の数学ベンチマークで一般的に使われる 8-shot CoT と greedy decoding の設定に従う
- 予備実験では、shot数は性能や結論を大きく変えなかった

同じ問題構造でも揺らぐ性能

GSM-Symbolicの50個のデータセットでは、すべての最新モデルが無視できない正確度の分散を示した
- Gemma2-9Bでは最悪性能と最高性能の差が12%を超えた
- Phi-3.5-miniではその差が約15%だった
各質問インスタンスの違いは名前と数値だけであり、問題を解くための全体的な推論ステップは同じである
GSM8K元問題100問での性能は、多くのモデルでGSM-Symbolic性能分布の中心より1標準偏差以上右側にある
- この現象は25モデル中21モデルで見られた
- 可能な説明のひとつは、GSM8Kのテスト例がモデルの学習データに偶然含まれ、性能が楽観的に測定される データ汚染 である
GSM8KからGSM-Symbolicに変えると、すべてのモデルで性能が低下する
- Mistral-7b-it-v0.1は -9.2ポイント
- Gemma2-2bとGemma2-2b-itはそれぞれ -7.4ポイント
- Gemma2-9b、Gemma2-9b-it、Mistral-7b-it-v0.3はそれぞれ -6.2ポイント
- GPT-4o-miniは -2.4ポイント、o1-previewは -2.2ポイント
- o1-miniは -0.6ポイント、GPT-4oは -0.3ポイント
Llama3-8bやGPT-4oのように、GSM8Kの性能がGSM-Symbolic分布の中心に近いモデルは性能低下が小さい

名前より数値変更に敏感

名前だけを変えた場合にも性能変動はあるが、数値を変える場合より分散は小さい
元のGSM8K正確度は、名前だけを変えた分布の中心により近い
- 数値を変える、または名前と数値を同時に変えると、分布平均は左に移動し、分散は大きくなる
Gemma2-9b-itの8-shot CoT正確度は、GSM8K 87.0%、名前変更 88.6±2.0%、数値変更 83.1±2.2%、両方変更 79.1±3.0%
Phi-3.5-mini-instructは、GSM8K 88.0%、名前変更 89.1±1.8%、数値変更 84.9±2.4%、両方変更 82.1±3.4%
Mathstral-7b-v0.1は、GSM8K 80.0%、名前変更 81.0±1.3%、数値変更 77.3±2.0%、両方変更 74.0±3.5%
これらの結果は、LLMの推論過程が 形式的推論 よりも、学習データで見た類似質問や解法ステップに合わせるパターンマッチングに近い可能性を示唆する

条件節の増加とGSM-NoOpで明らかになった脆弱性

難易度実験では、GSM-Symbolicで節を1つ削除した GSM-M1、節を1つ追加した GSM-P1、節を2つ追加した GSM-P2 を用いた
- 節を1つ追加または削除することが、必要な推論ステップ数を正確に1つ増減させることを意味するわけではない
- 実験の焦点は正確な数値そのものより、性能分布がどのように変化するかにある
節数が増えるほど、すべてのモデルで平均性能は下がり、分散は大きくなる
- Gemma2-9b-it: GSM-M1 84.4±2.4%、GSM-Symb 79.1±3.0%、GSM-P1 68.1±4.8%、GSM-P2 41.8±6.0%
- Phi-3.5-mini-instruct: 87.6±2.0%、82.1±3.4%、64.8±5.4%、44.8±6.3%
- GPT-4o-mini: 92.5±1.6%、91.7±2.0%、81.1±3.1%、72.4±4.6%
- GPT-4o: 94.4±1.6%、94.9±1.9%、93.9±2.6%、88.0±3.4%
- o1-mini: 94.9±1.5%、94.5±1.6%、94.3±2.6%、89.1±3.6%
GSM-NoOpは、問題解決には不要だが関連がありそうに見える節をGSM-Symbolicテンプレートに追加したデータセットである
- 例では、「日曜日に採ったキウイのうち5個は平均より少し小さかった」という情報は、キウイ総数の計算には影響しない
- o1-miniとLlama3-8Bは、この5個を日曜日の収穫量から引く演算に変えて誤答した
モデルは文を意味に基づいて無視するよりも、演算へ変換する傾向を示した
- discount のような表現を文脈と無関係に乗算として解釈する例も観察された
GSM-NoOpでは、テストしたすべてのモデルの性能が大きく低下した
- Phi-3-mini-128k-instructはGSM8K比で -65.7ポイント
- Phi-3-small-128k-instructは -64.0ポイント
- Gemma2-9bとGemma2-9b-itはそれぞれ -63.0ポイント
- Phi-3.5-mini-instructは -62.5ポイント
- GPT-4o-miniは -40.0ポイント、GPT-4oは -32.0ポイント
- o1-miniは -29.1ポイント、o1-previewは -17.5ポイント
同じ質問のGSM-Symbolic変形8件をshotとして与える NoOp-Symb 設定でも、性能は標準偏差の範囲内にとどまった
- Phi-3-medium-128k-instructは GSM 87.3%、GSM-Symb 82.5%、GSM-NoOp 29.4%、NoOp-Symb 30.2%、NoOp-NoOp 22.6%
- Llama3-8b-instructは GSM 76.0%、GSM-Symb 74.6%、GSM-NoOp 18.6%、NoOp-Symb 19.6%、NoOp-NoOp 19.2%
別のGSM-NoOp問題8件をshotとして与える NoOp-NoOp 設定でも、性能回復は限定的だった
- Llama3-8Bは元のNoOpと性能が同じ
- Phi-3は性能がやや低下した
一部のGSM8K・GSM-Symbolic性能が低いモデルは、NoOp-Symbでより高い性能を示した
- Gemma2bは GSM 12.1%、GSM-Symb 8.2%、GSM-NoOp 4.7%、NoOp-Symb 48.3%、NoOp-NoOp 3.1%
- Mistral-7b-v0.1は GSM 44.5%、GSM-Symb 41.1%、GSM-NoOp 16.2%、NoOp-Symb 62.5%、NoOp-NoOp 14.5%
全体の結果は、LLMの数学的推論が同じ問題の変形、わずかな難易度上昇、無関係な情報の追加に脆弱であり、確率的な パターンマッチング に近い可能性を示している

1件のコメント

GN⁺ 2024-10-13

Hacker News のコメント

LLM が実際に推論しているのかは強く断言しませんが、性能低下の現れ方は大学1年生に見られるものと似ています
今、微積分を教えていて、ほぼ半数が高校で AP 微積分を履修した学生なのですが、単純な問題はよく解ける一方、簡単な手順でも複数つなげる必要があると正確さが落ち、ばらつきが大きくなります
関係のない文を問題に入れても似たような結果になります。多くの学生は、与えられた情報はすべて使うべきだと訓練されているため、教師が与えた情報を使わないと重要なものを見落としたと思いやすいのです
そのため、GPT-4o のような最新の LLM は、米国の平均的な高校卒業生程度のパフォーマンスを示すと考えています。人間の能力としては期待外れですが、LLM にとっては、すでに多くの人を助けられるという良い兆候でもあります
- LLM が正解するときは、訓練中に取り込んだ膨大な情報量のおかげで、確率的にモデル内部から正解を引き出していることに近いです
  人間は、10億個の数学問題や Stack Overflow の回答を読まなくても、いくつかの説明、YouTube 動画、数問の練習問題だけで、データを処理し推論するより洗練された方法を発達させてきました
  高校数学のような領域でスコアが似たようになるのは、現在の AI と人間が偶然同じ地点に立っているからかもしれません。失敗の仕方を詳しく見ると両者は非常に異なる失敗をしており、今の AI の失敗は人間にはかなりばかげて見えます
- 「GPT-4o のような最新の LLM は、米国の平均的な高校卒業生程度」という言い方は厳密な意味では正しいかもしれませんが、LLM と高校卒業生の使われ方の違いが非常に重要です
  LLM は正しいときも間違っているときも同じ自信で答え、ユーザーには非の打ちどころがないように提示されることが多いです
  平均的な人に中程度の難度の論理問題を尋ねると、人間は論理が苦手だと社会化されているため、自分の答えを適切に疑います。一方 LLM はコンピュータ上にあり、コンピュータは数学と論理では常に正しいというインターフェースとして受け止められてきました
  そのため、LLM は多くの人を助けるというより、多くの人を誤導する可能性の方が高いと思います
- 高校の試験問題が単純すぎるからなのか、それとも訓練データに似たパターンが多すぎるからなのか気になります
  基本的な数学概念の真の理解が必要な、単純だが新しい問題を入れてみると結果は一貫して悪く、中国の高校入試レベルの問題でも同様でした
  LLM は数学を理解しておらず、パターンマッチングをしているように見えました。そしてそのようなパターンマッチングは、すでに実力のある学生にしか役立たないかもしれません
- なぜいまだに人々が混同しているのか分かりません。このモデルは根本的に、本当に考えているように見せるためにランダム性のパラメータを置いて決定的な出力を避けているので、推論は起きていないことは明らかに見えます
- 米国の学校制度をけなすつもりはありませんが、かなりイージーモードに近いと思います。全員が学問的に優秀である必要はありませんが、幼い頃の方が学びやすく、過度な手取り足取りの支援は学習を損なうと信じています
この論文は、無関係な情報を追加すると、LLMが基礎代数の問題で大きく性能を落とすことを示している
例としては、「ジョンは月曜日にキウイを43個、火曜日に24個収穫し、水曜日に収穫したキウイのうち5個は普段より小さかった。月・火・水を合わせて87個収穫したなら、水曜日には何個収穫したか？」のような問題である
水曜日のキウイの一部が小さかったという話は無関係だが、こうした文を入れると、GPT-4oでは有名ベンチマークの性能が95%から77%に低下する
ただし、これはそれほど印象的ではない。人間がこのような問題を読んでも、2つの可能性を考える必要がある。無関係な情報かもしれないし、問題の作成ミスで、本来は関連する情報として書くつもりだったのかもしれない
有名な論理パズルを反転させたLLM向けのひっかけ問題を見ると、自分も「間違える」と思う。問題を理解できないからではなく、文脈がなければその反転を誤字だと仮定しうるからだ
- そうした小さな罠を入れるのは、数学・物理教育で、学生が前の問題の表面的な構造だけを機械的になぞるのではなく、新しい問題を本当に理解しているか確認するための戦術である
  ここでの論点は、LLMが推論しているのではなく、ハンドルを回すように機械的に答えているということだ
  この問題は6年生の算数テストに出てもおかしくない。文章題で、実際の質問に関係する情報と、教師が入れたおとり情報を区別する技術を学んだ記憶がはっきりある
- 実際の談話には、さまざまな理由で無関係な情報が大量に混ざる
  学術界や専門領域のように、質問が慎重かつ具体的に提示される狭い文脈もあるが、汎用の補助ツールなら、無関係なものの中から関係するものを見つけ出せなければならない
  非常によく定義された数学問題をうまく解く能力は、特定領域の補助ツールとしては有用かもしれないが、それ自体が同じ能力というわけではない
  AIプロジェクトがAGIに到達することに1,000億ドルを賭けているなら、こうした文脈を混同するほうが都合がよい。その場合、SAT、LSAT、GREのような形式問題を掘り下げることは、現実のユースケースよりもマイクロベンチマークに合わせることに近い
- 無関係な情報の区別は初等教育段階でも教えられ、SATでも必要な技能である
  実質的にどの種類のモデルでも、LLMや機械学習でなくても、無関係な情報を取り除く必要がある
  核心は、論理的に擁護可能で、ほとんどの人が同意する答えを出すことだ。モデルが「この部分が誤字かどうかは確かではない」と言ったなら、モデル製作者はRLHFの方向性を別のものにしただろう。それはある程度合理的で、擁護可能だからだ
  ただし、この特定の問題には単一の客観的な答えがあると見る。もちろん、ミスリーディングだったり無関係だったりするプロンプトが常にそうだというわけではないが、モデルは応答の仕方として実際に引っかかっている
  RLHF作業者として、ときどき似た質問を作成するよう指示されるため、このように見ている。結局、これがモデル製作者の望む言語予測の方式であり、ユーザーはその流れに乗っているわけだ
- この結果は妥当だと思う。Transformerモデルは論理を明示的に実行するというより、入力シーケンスと学習済み知識をもとに、注意機構を通じて答えを「勘で」当て、最終的にはテキストシーケンスを予測している
  そのため、入力に無関係な文脈をさらに入れると、出力が影響を受ける可能性は大きい
  注意機構がこれを克服できることもあるだろうが、そうでなければ現実の応用と信頼性にとってはかなり大きな落とし穴だ。実環境では、何が関連情報なのかがすぐには明確でない場合が多い
  どの情報を入れるかを人間が判断しなければならず、出力もその判断に依存するなら、モデルの有用性は大きく低下する。今でも有用ではあるが、投資家が期待している水準はそれよりはるかに大きく見える
- ノイズからシグナルを取り出す能力は、シグナルから結論を導く能力と同じくらい、もしかするとそれ以上に重要なので、この結果は重要である
この結果は、数か月前に議論されていたAlice in Wonderland問題と非常によく似ている。別の論文の著者たちははるかに批判的に見ており、「完全な推論崩壊」と呼んでいる
モデルがパターンマッチングと推論の中間状態にあるため、このような問題が起きるとも考えられる
問題の登場人物、数字、文構造を変えたときに結果が20ポイント以上変わるなら、数学と推論に関するLLMベンチマーク結果は信頼しにくいと思う
https://arxiv.org/html/2406.02061v1
https://news.ycombinator.com/item?id=40811329
- 推論能力に関して興味深い例があった: https://x.com/colin_fraser/status/1834336440819614036
  「ある男性が病院に運び込まれた。医師は彼を見て『この人を手術することはできません。私の息子です！』と叫んだ。どうしてあり得るのか？」
  私が試したすべてのLLM、GPT o1-previewまでもがこの問題を間違えた。医師が男性だという性別固定観念を破るなぞなぞだと仮定するが、ここでは“he exclaims”とされていて医師が男性であることは明確なので、矛盾はなく、その男性は患者の父親でありうる
  LLMが間違えたのは、似た推論パターンを見つけて適用するために見える。追加で誘導しても間違い続け、ある時点では同性関係の可能性まで主張した
  興味深いことに、O1のスレッドでこの例が出たとき、HNの多くの人も問題を誤解していた。人間も最初から考えるより、以前の例を多く活用して推論しているのかもしれない
- Claude-3.5とo1-previewはこの問題に正しく答えた
  「アリスには兄弟が3人、姉妹が2人いる。アリスの兄弟には姉妹が何人いるか？」では、ポイントは、兄弟たちにとってはアリスの姉妹2人に加えてアリス本人も姉妹として数えるということなので、合計3人と答える
- Alice in Wonderland論文に関する、より大きなHNでの議論はこちらにある
  https://news.ycombinator.com/item?id=40585039
「質問の節の数が増えるほど数学的推論の性能が大きく低下し、現在の LLM は真の論理推論をしていない」という説明には、もっと単純な原因も考えられる: トークン化
「12345 * 27271」をトークン化すると、「123」「45」「 *」「」「272」「71」のように分かれる
単純な算術の文脈では、こうしたトークン同士が互いを予測する統計的可能性にはほとんど意味がない
ツール利用が必要なポイントだと見ることができ、自分もそちらに同意するが、これが「真の論理推論」にとって良い兆候だとは考えにくい
- Nanda らは、Transformer が モジュラー加算を実行するよう学習した正確なメカニズムの復元に成功している
  Transformer は結局のところ訓練データが核心であり、データをどの順序で学習させるかが非常に重要だということを、今後ますます学ぶことになるだろう。ただし、Transformer が算術の一般化された解法をエンコードできることは明らか
  適切なトークン化方式と訓練手順があれば、統計的に堅牢な算術能力を持つ LLM を作れる。それでも計算機のアルゴリズム的な確実性より確率的モデルを信じるつもりはないが、数学者にとってより重要なのは、これらのモデルが複雑な問題を推論し、重みの統計的な力を活用して、難しい数学問題の新たな領域を切り開く助けになるかどうか
  https://arxiv.org/abs/2301.05217
- 丁重に同意しない。トークン化が言語モデルの入力処理に影響するのは確かだが、数学的推論の難しさをすべてトークン化のせいにするのは単純化しすぎ
  最新の言語モデルは個々のトークン予測だけに依存しているわけではなく、複数の層にわたって 文脈表現を構築する。そうでなければ、極めて単純な場合を除いて、モデルが機能すること自体が不可能だったはず
  複雑度が上がると性能が落ちる理由は、作業記憶や注意範囲の限界、長いシーケンスで一貫性を保つ難しさ、複数の相互依存する論理制約を同時に管理する難しさといった別の要因かもしれない
  いずれにせよ、OpenAI の o1 モデルは現在、数学で非常にうまくやっていると思う。反復的でモデル主導の思考連鎖アプローチは、かなり複雑な問題も処理しているようだ
- トークン化を少し変えて、例えば 1 桁の数字を 1 つのトークンにマッピングすれば、この特定の問題には役立つのではないか？
- LLM も「123」と「45」が続いた数字だということは分かっているはず。人間が「123」の後にごく短く止まって「45」と言っても、1 つの数字として理解するのに似ている
今生きている世界の愚かさを理解するのは難しい。株式市場がバブルであること、とりわけ AI 関連株が巨大なバブルであることは、あまりにも明白に見える
はじければ非常に醜いことになるはずなのに、それでも資金は流れ込み続けている。Sabine が言ったように、素粒子物理学でひたすらより大きな衝突型加速器だけを求める姿に似てきている。方法論が間違っているなら、衝突型加速器を大きくしても意味のあるリターンは増えない
結局、注ぎ込む指数関数的な現金が尽き、投資家が疑問を持ち始めるだろう。すでに株式は利益の 60 倍以上で評価されており、バブルがはじけるときに天井で買った人間にはなりたくないはず
一般大衆が LLM の問題に気づくまでにはもう少し時間がかかるだろうが、最終的にはそうなる
- 5 年前の スケーリング予測はこれまで当たってきた。パラメータと計算量は増え続け、モデルはますます強力になってきた
  2024 年の LLM の欠陥そのものが重要なのではない。2021 年の LLM の欠陥も重要ではなかったのと同じで、重要なのは変化の速度と、この急な上昇が続かないという証拠が乏しいこと
  特に GPT-4 が巨額投資を呼び込んだ一種のプレビューモデルだったと考えるなら、その投資で押し進められたモデルが今後 2 年以内に出始めるはず
  トレンドが崩れてスケーリングが失敗すれば、バブルから多くの空気が抜けると思う
  https://arxiv.org/pdf/2001.08361
- コンピュータは何十年も前から数学計算と論理演繹を安価かつ完全にこなせており、生成 AI が有用であるために、必ずしもその作業を直接うまくやる必要はない
  Python コードを書いて実行して処理できれば十分で、一般的にはその程度ならかなりうまくできる
  実際にできるのかは学術的には興味深い問いだが、有用かどうかとは別問題。有用であるために必ず 本物の AGIである必要もない
無関係な節が LLM を混乱させるのか、それが重要なのかについて多く議論されているが、より致命的なのはこの部分だと思う: 「GSM-Symbolic ベンチマークでは、質問の数値だけを変えてもすべてのモデルの性能が低下する」
これは 過学習の反論しがたい証拠のように見える。好意的に見ても、現在の LLM 全般に過学習が蔓延しているという意味であり、悪く見れば、訓練データから数学的推論を学べない根本的限界を覆い隠しているということ
非常に興味深く、LLM が行っている「思考」の種類についての予想とも合っている
この種の「思考」だけでも、ほとんどの学校科目は通過できそうだ。もちろん、教師がパターンマッチングでは解きにくい試験問題を丹念に作った科目は例外
LeetCode 式の面接問題を思い浮かべると、候補者を評価するうえでどの問題がより良いか悪いかという違いに似ている
純粋な言語モデルと連携して動く別種の思考を追加しようと、多くの人が熱心に取り組んでいることも知っている
LLM を似たような方法で試している。例えば、農夫がキャベツ、ヤギ、オオカミを連れて川を渡る有名な論理パズルは GPT-2 の頃から解けていたが、オオカミを牛に変えると、gpt-o はパズルのルールを正しく推論する一方で、解くことはできない
- 川渡りパズルは、LLM がどう崩れるかを示すのに適している
  例えば Gemini にいくつかの変形を入れてみたが、農夫の船が一度に乗客または物を 1 つしか運べないという制限がない簡単なバージョンもあった
  「農夫には配偶者、ニワトリ、キャベツ、赤ちゃんがいて、全員が船で川を渡らなければならない。最善の方法は？」と尋ねると、テストでは LLM はほとんど常に船に積載制限があると仮定し、何度も往復する奇妙な解法を作り出した
- まったく新しく、どこにも文書化されたことのない 論理ゲームを自分で作ってから LLM に解かせたらどうなるだろう？非専門家の自分には、AI の推論を測る良い方法のように見える
- 新しい LLM を試すたびにこれを最初の質問として使ってきたし、GPT-4 以前のモデルが正解に近づいたこともほとんどなかったと確信している。GPT-2 や 3 が解けるプロンプトを見せてもらえるだろうか？
- 結局、派手な Googleにすぎないということ
こうした作業を拡張して、動物と人間の数学的推論の限界まで示せるなら興味深いはず
たとえば犬がフーリエ変換を決して理解できないように、人間にも理解できないアイデアがある可能性は高い
私たちの限界を知ることができれば、人間にはできないやり方で推論する機械を作れるのか気になる
- そのような限界が実際に存在すると見ること自体が、素朴な仮定かもしれない。ここでいう「存在」とは、一貫していて比較的単純に説明でき、有用な限界を意味する
  言語でも Noam Chomsky を通じて似たアイデアが探究され、人間の能力が動物とどう違うのかを示すため、理解の明確で形式化された限界を引こうとした
  個人的には、そのアプローチは完全に取り返しのつかない形で失敗したと思っているが、研究自体が無用だったわけではない
形式推論を扱ったことのある人にとっては、驚くような結果ではない。LLM は形式的な意味での本物の論理推論はできず、SMT solver のほうがうまくできる
同時に、訓練データがこれまでに生み出されたほぼすべての文章だとすれば、訓練データに由来する「推論ステップ」を適用するだけでも、多くの論理問題を解ける
どちらも同時に真であり得るし、矛盾ではなく興味深い二分法である

LLMの数学的推論の限界を理解する

GSM8Kだけでは捉えにくい数学的推論能力

テンプレート生成と評価方法

同じ問題構造でも揺らぐ性能

名前より数値変更に敏感

条件節の増加とGSM-NoOpで明らかになった脆弱性

関連記事

1件のコメント

Hacker News のコメント