事前学習の手続き的知識がLLMの推論を導く

(arxiv.org)

1 ポイント投稿者 GN⁺ 2024-12-03 | 1件のコメント | WhatsAppで共有

LLMの推論評価はベンチマークの飽和とデータ汚染によって揺らいでおり、この研究はモデル重みではなく出力に影響を与えた事前学習文書を追跡する
Cohere Command R 7Bと35B、事前学習トークン25億個と文書500万件を対象に、40件の事実クエリと40件の推論クエリの影響文書を順位付けした
事実クエリは質問ごとに影響文書が異なったが、同じ数学課題の推論クエリは複数の質問で似た影響パターンを示し、手続き的知識の存在を示唆した
事実クエリの答えは上位0.01%の影響文書で頻繁に見つかった一方、推論クエリの正答や中間ステップの答えはおおむね上位影響文書には現れなかった
推論は以前に見た答えを取り出す方式よりも、類似した手続きを含む文書群から一般化可能な解法過程を合成する方式に近い

ベンチマーク汚染を超えて事前学習文書を追跡

LLMは多くの推論ベンチマークで急速に高い性能を示しているが、データ汚染のため、スコアを一般化能力としてそのまま解釈するのは難しい
- 一般的な機械学習では、訓練データとテストデータを分離して一般化を測定する
- 現在の最先端モデルは数兆トークン規模のデータを使うため、ベンチマークが事前学習データに混入する可能性を避けにくい
- 言い換えられたベンチマークデータも、N-gramベースの検出を避けながら性能に影響を与えうる
核心となる問いは、LLMが事前学習データからどのように推論を学ぶのかである
- 以前に見た答えや推論の痕跡を検索して再結合しているのか
- 質問とより抽象的に関連する複数の文書から手続きを学び一般化しているのかを比較する
分析ではモデル内部の重みを直接解釈せず、特定の出力に影響を与えた事前学習文書までさかのぼる
- 頑健統計の手法を大規模Transformer向けに適合させた影響関数アプローチを用いる
- 各事前学習文書が特定のプロンプト-補完ペアの尤度にどれだけ影響するかを計算する

実験設定

実験対象はCohereのCommand R 7Bと35Bの2モデル
分析した事前学習データは25億トークンで、これを500万件の文書として扱う
クエリは合計80件で構成される
- 40件の事実クエリ: パラメトリック知識から答えを検索する必要がある質問
- 40件の推論クエリ: 単純な数学推論の質問
推論クエリには3つの数学課題が含まれる
- 2段階算術
- 傾きの計算
- 一次方程式の求解
各クエリについて、事前学習文書500万件をモデル出力の尤度に与えた影響に基づいて順位付けした

推論では同じ手続きを含む文書が繰り返し影響

同じ数学課題に属する異なる推論クエリでは、文書影響パターンが似通っていた
- ある文書が1つの推論クエリの推論痕跡に与える影響は、同じ課題の別のクエリへの影響も強く予測した
- このパターンは4つの事例のうち3つで確認された
文書は特定の数字や単一の答えだけに対応するのではなく、同じ手続きを異なる数字に適用する複数の質問に似た形で寄与する
一方で事実クエリは、各質問ごとに主に異なるデータ集合へ依存しており、推論クエリのような共通の影響パターンは現れない
傾き計算の課題では相関が特に強かった
- この課題の多数のクエリで、上位0.002%の事前学習データ内にコードや数式形式の解法手順が何度も見つかった

事実検索と推論では影響文書の性質が異なる

事実クエリでは、答え自体が影響力の高い文書に頻繁に現れる
- 上位500件の文書、すなわち上位**0.01%**の影響文書で、7Bモデルのクエリの55%、35Bモデルのクエリの30%が答えを含んでいた
推論クエリでは、正答は影響力の高い文書にほとんど現れない
- 25億トークン全体で正答を見つけられる場合でも、上位影響文書には通常現れない
- 中間推論ステップの答えも、影響力の高い文書にはおおむね含まれない
推論クエリでは、モデルが生成したクエリ情報量の単位あたりの個別文書の影響が事実クエリより概して低い
- 推論痕跡を作る際、文書1件1件への依存度が低い
影響文書集合全体の影響規模も、推論クエリでは変動が小さい
- 25億の事前学習トークンのランダムな部分集合に非常に影響力の高い文書が含まれるかどうかは、事実クエリのほうが偶然に左右されやすい
これら2つのパターンを合わせて見ると、推論は個別文書への依存度が低く、より一般的な文書集合から一般化する方向に近い

コードと高品質な手続きデータの役割

数学推論クエリの正・負の影響ランキング上位では、コードデータが訓練分布に比べて大きく過剰代表されていた
コードが分析対象となったすべての数学課題で重要な役割を果たす証拠が確認された
モデルの推論は、事前学習中に形成されたパラメトリック知識から答えを検索する方式とは異なる
- 一般的な手続き説明
- 類似した手続きが適用された事例
- コードや数式で解法過程を示す文書
あらゆる可能な事例を事前学習データに入れるよりも、さまざまな推論課題で手続きを示す高品質データに集中するほうが効果的かもしれない
研究範囲は、同じ数学課題の中で手続きを学習する場合に限定される
- コードのように複数課題にまたがる手続き学習を可能にする事前学習データの種類があるかどうかは、今後の問いとして残されている

1件のコメント

GN⁺ 2024-12-03

Hacker News のコメント

LLM が訓練データの中からあらゆる問題の例を見つけられるわけではない、というのは当然に思える。情報検索的な事実照会に必要なほど十分な例があるはずはないので、与えられた問題に対して何らかの形の外挿によって新しい解法を作り出していると見なせる
興味深いのは、この論文が Apple の LLM 論文[0]の結論とも矛盾しない点だ。その論文はプロンプトを変形して LLM が誤りを起こすようにしており、LLM が新しい解法を作るときでも、既存の例示解法から小さな偏差しか作れないと考えられる
この解法生成プロセスを「推論」と呼ぶのは好きではない。LLM 企業が技術を語るとき、感情的な反応を誘うために作った用語に近いと思う。それでも、自然言語とある程度の曖昧さだけで、機械に一連の手順をたどらせられるようになったのは大きな進歩だ
[0] https://machinelearning.apple.com/research/gsm-symbolic
- LLM は創造的な問題解決や論理の適用という意味での推論にはあまり向いていない、という見方には大いに同意する。この領域の本当の可能性は、不正確な自然言語と、SQL・Prolog・Python・Lean のような形式言語との間をつなぐ一種のコンパイラ層として使うことにあると思う
  その後で形式言語層の結果や出力を統合でき、基本的には「エージェント」になる。ただし、LLM は「言語的推論」のタスクはできると思う。言語的・質的・量的推論の境界がどこにあるのかはよく分からず、標準化試験の言語分野を思い浮かべる
- 「何らかの形の外挿で新しい解法を作る」と信じることはできるが、その信念にはどんな証拠を使っているのかが気になる
  それに Apple 論文の要旨は、「破損」のような何か巧妙な表現を使うのではなく、初期の数値を変えたと言っている
- コンピュータを擬人化することは ChatGPT よりずっと前からあった。コンピュータが落ちて文書が保存されなかったときに「コンピュータが宿題を食べた」と言っても、本当に食べたと思う人はいないし、たった今起きたことを簡単に指す表現にすぎない
  LLM 以前にも「コンピュータが考え中だ」と言うことはできた。数学用語を誰もが知っているわけでもないので、「Claude が私のエッセイを内積した」とか「ChatGPT に上司へ送る手紙を内積させた」と言っても、内積が何か分からない人は多い。技術的にはより正確な動詞だとしても、誰が使うのだろうと思う
  AI 企業が「思考」や「推論」のような表現を押し出していないわけではないが、それらは最も使いやすい言葉でもある。モデルが strawberry に R が 2 つあると「考える」とは言うが、「内積する」とは言わない。行列積もしているし、ときどき softmax もして、畳み込みもしているが、たいていの人は Terence Tao ではないので、何かが softmax しているという感覚はない
- こうした企業は、自社の AI モデルを自分で考え推論する AI のように見せようと推しているが、実際には膨大なデータセットで訓練され、それを外挿して正しい答えを探しているものに近いと思う
  それでも自分のデータセットという箱の外では考えられない
人間が問題を段階的に解いてやらないと、ニューラルネットワークはそれをまねできないという意味なのか？こう書いてみると、かなり当たり前に聞こえる
- 違うと思う。正しく理解しているなら、手続き的な問題解決例を吸収して、ソフトウェアが問題を解く一般的な方法を学ぶという意味だ
これなら、コードで訓練したときの予想外の利点を説明できるかもしれない
- 面白そうに聞こえるが、門外漢なのでよく分からない。関連リンクをもらえるか気になる
  https://arxiv.org/abs/2408.10914 は見つけたが、これが言っている論文なのか判断する背景知識がない
「LLM は問題を解く一般能力を示す一方で、人間と比べると驚くべき推論の空白も示しており、汎化戦略の堅牢性に疑問を投げかける」という文が支持されているのは意外だ
HN には、LLM はまったく推論しておらず、LLM は次トークン予測器というレンズでしか説明すべきでないと見る人が驚くほど多かったからだ。前に LLM の知能について話したときも、誰かが無礼にも LLM の動作方式を勉強しろと言い、すでに正確にどう動いているか分かっていて、単なるトークン予測器にすぎないと言っていた
- その「驚くべき空白」こそ、LLM が推論していないから生じるのだと思う。少なくとも人間が問題を解くときに考える対象について推論しているのではなく、文章中のトークン関係に関する頻繁に相関する別の事実集合を扱っていることに近い
  失敗のパターンがその違いを最も鮮明に示している。LLM の出力は、後から人間が外部の意味を与えた瞬間に初めて、私たちが普通言う意味で意味を持つ。LLM はでたらめを入れても動作を止めたり「混乱」したりしない。抽出する意味が人間の与える意味に依存していないからで、私たちがでたらめではないと見なすものを食わせて、偶然その二つを合わせているだけだ。「実際にどう動作しているのか」という点では別の問題だ
- 最も声の大きい人たちは極端な立場にいることが多いように見えるし、「特定の AI が特定領域で無用なのか／超人的なのか」といった問いも同じだ。単なる印象かもしれないが、CGP Grey が言ったように、論争そのものが彼らを長く生き残らせているのかもしれない: https://www.youtube.com/watch?v=rE3j_RHkqJc
  中間の立場にいると、両極端の双方から攻撃される。「有用な道具だが、壊れる道筋もたくさん見える」程度の考えが、このテーマではオーバートンの窓の外にあるように感じられる奇妙な位置だ。産業革命期の織機について、現代の要約ではなく、実際の日常的な言説はどんな雰囲気だったのか気になってくる
- 両方が同時に真であり得る。そう、LLM は次トークン予測器だが、ときにはそれを正しく行うには、前にあるすべての内容を実際に理解し、論理的に推論しなければならない
  Sutskever が言ったという話のように、モデルの入力が推理小説の大部分で、次のトークンが犯人の名前なら、そのモデルは小説を理解しているということだ。Transformer は任意関数近似器なので、何ができて何ができないかについての堅い限界はない
- 「次トークン予測器」と知的であることは、実際には相互排他的ではないと思う
最近の議論 https://news.ycombinator.com/item?id=42285128 と非常に関連がある
Googleは、より良いチップ設計を少しでも出すには、事前学習の利用が重要な要件だと主張している。そして、事前学習を試していない反論論文は、チップ設計の最先端水準を大きく下回ると予想されるべきだった、と主張している
チップ設計で推論が重要であり、大規模言語モデルで推論を引き出すうえで事前学習が重要なら、Googleの論理はかなり妥当である。Googleが事前学習を使っても最先端水準をかろうじて上回っただけなら、事前学習なしの試みは現在の最先端水準を大きく下回ると予想するのが正しい。したがって、その2つ目の試みの低い性能は、Googleの結果がもっともらしいかどうかを示すものではない
- その記事の特定の応用分野の専門家ではないが、事前学習という論拠がなぜ妥当たり得るのかは分かる。ニューラルネットワークの事前学習が少数例学習の性能を高めるという話は、あまり議論の余地がない
  どんな問題にも、事前学習済みニューラルネットワークが、手作業の特徴量や強い事前仮定のようなデータ要求量の少ないアプローチよりも、少数例学習で優れた性能を出す変曲点があるように思う。ただしここでの問いは、この事例がその変曲点に達しているかどうかだと思われる
「極端な場合、推論質問に答える言語モデルは、事前学習データ内の限られた文書集合に影響されたパラメータ知識から検索することに大きく依存し得る。この場合、検索される情報、すなわち推論の痕跡を含む特定の文書がモデル出力に大きく寄与し、多くの他の文書はごく小さな役割しか果たさない」
「逆にスペクトラムのもう一方の端では、モデルは質問とより抽象的に関連する広範な文書から取り込み、各文書は複数の質問に同じように影響するが、最終出力には比較的小さな量しか寄与しない場合がある。私たちは、一般化可能な推論は後者の戦略のように見えるべきだと提案する」
でも、モデルがたった1つの例から一般化できるなら、そのほうがはるかに印象的ではないだろうか？
同感。事実よりも推論の訓練データのほうが重要だという方向だ。非合成データの中で最も簡単に得られるのは、おそらく数学の証明だと思う
Prologのようなものを使えば、複数の代替推論経路を生成できる。こうした複数経路がLLMの訓練に役立つかどうかは、巨大な機械にアクセスして直接実験してみなければ分からない。それがあまりにも不公平だ
この結論は、門外漢として理解しているAlphaGo対AlphaZeroに似ているのだろうか？人間の手続き的知識がある時点までは機械学習の訓練に役立つが、その先では制約になる、というような話なのか？
- 違う。分析されたモデルは、訓練データ中の同じ数学問題の答えを含む文書よりも、数学問題をどう解くかに関する情報を主に使っていた、ということだ
  「私たちは、どのデータがモデルの生成した推論の痕跡に影響を与えるのか、そしてそのデータが扱う特定の問題とどのような関係にあるのかを調べる。モデルは以前に見た事前学習データから答えを単に『検索』して再結合しているのか、それともより堅牢な一般化戦略を使っているのか？」
  「推論質問における上位文書を定性的に特徴づけると、影響力のある文書には、公式やコードを使って解答を得る方法を示すなど、手続き的知識が含まれている場合が多いことが分かる。私たちの結果は、モデルが用いる推論方式が検索とは異なり、似た形の推論を行う文書群から手続き的知識を統合する、一般化可能な戦略により近いことを示している」
  推論質問の例：「Prompt Calculate the answer: (7 - 4) * 7 Think step-by-step.」
これは、LLMが学生のノート、試験、書評のような大量の資料で訓練されれば、よりうまくできるという意味なのか？それなら本当に興味深い
- ときどき、なぜAIシステムを教育課程にゲームや遊びを加えて訓練しないのか不思議に思っていた
  世界中のさまざまな教育システムを使ってみたら何が出てくるのかを見るのも、魅力的かもしれない
ばかな質問かもしれないが、だとすると、なぜ生成した画像は悪夢のようなでたらめになるのだろう？なぜ手続き的にダイアグラムを構成できないのだろうか？

事前学習の手続き的知識がLLMの推論を導く

ベンチマーク汚染を超えて事前学習文書を追跡

実験設定

推論では同じ手続きを含む文書が繰り返し影響

事実検索と推論では影響文書の性質が異なる

コードと高品質な手続きデータの役割

関連記事

1件のコメント

Hacker News のコメント