LIMO: 推論は少ないほどよい (Less is More for Reasoning)

(arxiv.org)

3 ポイント投稿者 GN⁺ 2025-02-10 | 1件のコメント | WhatsAppで共有

LIMOは、複雑な数学的推論に大規模な教師データが必要だという通説に反し、800サンプルだけで高度な推論能力を引き出せることを示した
Qwen2.5-32B-Instructに単純な教師ありファインチューニング(SFT) を適用し、AIME24で63.3%、MATH500で95.6%の正答率を達成。既存のファインチューニングモデルの6.5%と59.2%を大きく上回った
学習データは従来手法の**1%**水準にすぎないが、さまざまなベンチマークや未見シナリオで、100倍多いデータで学習したモデルより高い汎化性能を示した
中核となる考え方は、ベースモデルにすでにエンコードされているドメイン知識と、解法プロセスを導く少数の高品質な例が、認知テンプレートのように機能するという仮説である
推論学習のボトルネックは、課題の複雑さそのものよりも、事前学習知識の完成度と、推論チェーンを活用させる事後学習用サンプルの品質に依存している

LIMO仮説が狙う既存の通説

従来の推論学習では、数学やプログラミングの問題を解くには数万〜数十万件の例が必要だとみなす流れが強かった
こうしたアプローチでは、多段階の論理、ドメイン知識の適用、構造化された解法パスをモデルに示すために大規模な教師データを用いる
成功例はあったものの、大規模データの収集と学習には相当な計算コストが伴う
LIMO仮説は、複雑な推論を引き出す閾値は課題の難易度よりも次の2条件に大きく左右されるとみる
- モデルのパラメータ内に必要な知識が潜在的に存在しているか
- 少数の例が問題解決プロセスを効果的に示し、推論時計算空間を活用させられるか

少ないデータでも可能な理由

近年のベースモデルは、事前学習段階でより多くの数学コンテンツを含むようになっている
- Llama 2の総学習データは1.8Tトークン
- Llama 3は数学的推論に3.7Tトークンを使用
この変化により、推論学習の焦点は数学知識を新たに入れることから、すでにエンコードされた知識を引き出すことへ移っている
推論時計算の拡張も重要な条件である
- 長い推論チェーンを拡張する手法は推論能力を大きく高める
- 推論時計算は、モデルが事前学習知識を解きほぐして適用する認知的ワークスペースのように機能する
LIMOは、豊富な事前学習知識と十分な推論時計算資源が組み合わされば、大量データの代わりに高品質な少数サンプルで推論能力を活性化できるとみている

800サンプルを選ぶ方法

LIMOのアプローチは、多くのデータを集める代わりに、高品質サンプルを見つけるための厳格な選別から始まる
大規模なQAペア集合に多層フィルタリングを適用する
- まず易しい問題を取り除く粗い難易度フィルタリングを行う
- より精密な難易度評価で挑戦的な問題を識別する
- 知識ポイントを多様化して包括的な範囲を確保する
推論チェーンは別途レビューする
- 論理的一貫性
- 段階ごとの明確さ
- 解法の正確性
この過程を経て、最終的に800件の学習サンプルからなる小さいが強力なデータセットを作成する

ベンチマーク性能

LIMOはQwen2.5-32B-Instructをベースに、選別した800サンプルのみを使って単純なSFTを実施した
主な性能は以下の通り
- AIME24正答率 63.3%
- MATH500正答率 95.6%
既存のファインチューニングモデルはAIME24で6.5%、MATH500で59.2%を記録し、LIMOとは大きな差を示した
必要な学習データは従来手法の**1%**水準にとどまる
さまざまな数学および学際的ベンチマークで強い分布外汎化を示し、全体で45.8%の絶対改善を達成した
複数の未見シナリオでも、100倍多いデータで学習したモデルより高い性能を発揮した

貢献と公開資料

LIMOの中核的な貢献は、少数の例で複雑な推論能力を引き出せるというLess-Is-More Reasoning Hypothesisを定式化した点にある
LIMOの原則に従ってデータセットを構成し、Qwen2.5-32B-Instructを単純なSFTでファインチューニングした
実験結果は、難しい数学的推論ベンチマークで競争力のある性能と優れた分布外性能を示した
分析とablation studyは、データ選択原則の効果を検証し、ベースモデルの知識水準・モデル規模・アーキテクチャ差による適用可能性を探った
競争力ある性能を得るための最小データ要件も調査した
モデル、コード、選別済みデータセットはGitHubリポジトリで公開されている

1件のコメント

GN⁺ 2025-02-10

Hacker Newsの意見

素晴らしい結果だが、2点は指摘しておく価値がある。モデルはすでに事前学習と教師ありファインチューニングで、厳選された数学の例題を数百万件含んでいる Qwen-2.5 Instruct をファインチューニングしたものだ。
さらにLIMO用の完璧な数学例題817件を作るために、R1のような最新モデルで1,000万件の数学問題プールをふるいにかけている。
つまり、情報量が最大限に高く蒸留されたファインチューニングデータを作るために、すでに多くの知能が投入されているわけで、1,000万件の初期プール全体でそのままファインチューニングして同じ結果を得るより印象的なのか、それとも印象が薄いのかはよく分からない。
ただ、後者は見出しとしてはあまり魅力的ではなかっただろう。
- 著者たちも要旨で、この2点を複雑な推論を引き出すための臨界条件として明記している。極めて完成度の高い事前学習済み基盤モデルと、事後学習用の超高品質な例題集合である。
  1,000万件の初期プールでファインチューニングする問題は、直感的には、性能を動かすには膨大な量のファインチューニングデータが必要になりそうで、817件の例題だけでは勾配を大きく変えにくい。
  その初期プールは、実質的にかなり強い正則化を強制する役割を果たしている。
  最近は、小さなデータと推論時スケーリングが大きな成果を生むことを示すことへの関心が高まっている。
  最近の例としてTinyZero: https://github.com/Jiayi-Pan/TinyZero、s1 Simple Test Time Scaling: https://arxiv.org/abs/2501.19393がある。
- 以前のモデルの情報を使ってより効率的なモデルを作ることが、なぜここまで批判されるのか分からない。
  先行研究を活用して前進するのは悪いことではないし、効率向上も進歩だ。
  コンブチャを作るときに、SCOBYを微生物一つひとつから組み立てなかったといって批判はしないだろう。
- 1,000万件の中から817件の標本を選ぶことには、12,290ビットの情報が入っているとも見なせる。
- 数学コンテストで高得点を取るために必要な理解を与えてくれる教科書があり、説明している問題が1,000問にも満たないと想像すればよい。
  それ自体がメタ認知における大きな発見だ。
- 論文とこの説明は、基礎学習を終えた学生に次段階の推論を教えるために、「情報量が最大限に高く蒸留された」認知例題の教科書を作る作業にかなり似ている。
  ここ数年のLLMの発展は、人間の「推論」応答を、LLMが生成したかのようにもっともらしい人間の反応としてモデル化し予測できることを示してきた。
  言い換えれば、多くの応答は特別に熟考された推論ではなく、トークン生成の連鎖に近いということだ。
  問題を解きながら「独り言」を言う人の隣に座っていると、よりはっきり分かる。
  tokgenの定義は、レストランでの会話を聞けば分かる。
  多くの会話は深い思考というより、プロンプトにほぼ完全に予測可能な形で続く反応だ。
  しばらく立ち止まって熟考した後に出てくる言葉と区別するために、thoughtとtoken generation、つまりtokgenというラベルを使える。
この分野の専門家ではないが、インターネットで事前学習されたモデルは、数学的推論に必要な能力の大半をすでに得ているのだと思う。
ただ、インターネット全体の次の単語分布を予測することが目的なので、インターネット上のテキストの大半はそのような推論テキストではないため、普段はその能力をあまり使っていないように見える。
数年前、画像生成モデルでプロンプトに「unreal engine」を付けると結果の品質が大きく向上したのと似ている。
モデルはインターネット画像の分布を生成するよう学習され、その大半は特に印象的ではないが、「unreal engine」が含まれる画像はたいてい高品質なスクリーンショットなので、生成分布も高品質側へ移動した。
だからモデルはすでに潜在能力の大半を持っており、実際にその能力を使うようにいくつかの接続を調整すればよいため、少ない学習例でも数学的推論能力が上がるのは筋が通っている。
- Anthropicが活性値の概念を分析・操作して golden gate Claude を作ったり、「buggy code」のような特徴を最大化/最小化したりしたこととかなり似ている[0]。
  [0]: https://www.anthropic.com/news/mapping-mind-language-model
- ここに少し付け加えると、パターンの識別と継続は記号推論の評価にも適用できる。
  例えば関数型プログラミング言語の意味論を再書き換え規則として定義すると、その様子が見える。
  モデルが問題を十分に精密な言語へ変換し、LLMにエンコードされた生成プログラムとのパターンマッチングを始め、論理的含意を評価できるなら、非常に興味深い領域に入る。
  自己回帰予測が記号的な逐次評価と計算へ変わり、背景にあるLLMはなお評価選択と目標探索を導く。
  基盤モデルに、より精密な言語をきれいに接続できるだけの中身がすでにあるなら、こうした評価規則を強化するのに巨大なコーパスが必ずしも必要とは限らないように思う。
- R1が主に見せる推論は、私には小学5年生の表現のように聞こえるので、上の説明を裏付けている。
  それでも数学推論に必要な知識を圧縮し続ければ、最終的には圏論とPrologのようなルールベースの何かが組み合わさった形が出てくるのかもしれない。
- これは、基本モデルを教師あり学習や強化学習でファインチューニングしても、概してモデルが本質的により賢くなるわけではなく、事前学習中の初期の自己教師あり学習だけがそうさせる、という意味かもしれない。
  もちろん、どんな量の強化学習でもLLMが本当に賢くなれないのだとしたら、それも奇妙ではある。
私の推測では、数学のような一部の領域は一般的ではあるものの、あり得るすべての数のように有効語彙規模が異常に大きいため、通常サイズの語彙を持つ領域で通用するやり方で学習させると、より高コストになる
こうした問題領域で推論ステップを学習すると、「足し算」「逆元」「解く」のような相対的に少数の一般語彙を強化できる
そうすれば数の組み合わせに関する算術は個々の問題から切り離され、一発の正解を強調しなくなる
N個の推論事例とM個の算術事例を学習すればよく、N*M個の完全な数学問題を学習する必要はない
そのため推論リソースはより多く使う必要があるが、より少ない学習でより良い答えを得られる
理論はさておき、応用面では、このような一般的な推論プロセスで最終的な数式を構造化してから、従来型の評価器に渡す方法がよさそうに見える
そうすれば推論とその学習は記号操作まで到達すればよい
自然言語処理がかなり後の段階で評価器に渡される、Wolfram Alphaのような方式である
- 関連する疑問だが、完璧な電卓であるLLMはあったのだろうか？
  標準演算の+/-や整数などを含む式を与えると、常に正しい結果を返すようなものだ
  関連論文を見た記憶はないが、私が専門家というわけではない
最近、互いに矛盾しているように見える2つのことを読んだ気がする。LLMは定理証明を絶対に一般化できないという話と、この論文の「現代のLLMはすでにパラメータ空間に豊富な数学知識を持ち得るので、課題は知識獲得から知識誘導へと変わる」という話だ
もう何が何だかよく分からない
- この苦い薬を飲み込むには、人間の知識はすべて実質的に比較的「小さな」有限分布であり、モデルは今やその上でパターンマッチングできるほど大きくなったため、LLMは「一般化」できるのだと認める必要がありそうだ
- LLMは問題に合った正しい探索空間を生成できるが、その中で解を特定するプロセスが非効率なのではないか？
  別の言い方をすれば、高校数学の講義ノートを勉強した学生の大半は、オリンピックで金メダルを取る可能性を内に持っている
  数学そのものが高校の内容を大きく超えていないからだ
  しかし実際の高校生をオリンピック金メダル級に引き上げるのは難しく、P対NPに似た何かなのかもしれない
- 誇張する側であれ懐疑的な側であれ、検証可能なことを言い続ける人たちを多く目にすることになるだろう
  彼らの主張に反するスクリーンショットを持っていても、同じ主張を続けることがある
  特に懐疑論者については、最上位のLLMを自分で使ってみて、「誰かができないと主張していることを、これは実際にやっているのか？」を確認できる
  しばしば実際にやっている
  最近、懐疑論者が提出した論文を見ると、最新のLLMについて主張しているにもかかわらず、1年以上前のバージョンだけをテストしている場合がある
  実際に最近そういうことがあった^
  何が正しいのか確信したいなら、結局は自分で使ってみて、何が真実かを判断するしかない
  ^ https://x.com/tylercowen/status/1881051976102035880
- 豊富な数学知識を持っていても、定理証明は得意でない可能性がある
  逆に、豊富な数学知識がなくても競技数学の問題証明は得意であり得る
  豊富な数学知識があり、定理証明も得意だが、主に自分の専門分野でのみそうである場合もあり得る
- 「LLMは絶対にXできない」という言い方は、単にいつも間違っているように思う
画像拡散モデルが、視覚世界全体のもっともらしい近似を5GBのモデルに要約できることを示したように、推論パターンも同じように圧縮可能なのだろうか？
あらゆる領域で使われる推論パターンは、実際に数えられるほど少なく、比較的小さな学習セットで捉えられるのだろうか？
- 真に一般的な「推論パターン」、つまり戦略やアプローチはそれほど多くないと思う
  しかし応用推論には、推論パターンだけでなく、そのアプローチに従って適用できる領域別の有効な推論ステップのレパートリーも必要だ
  また、知識と学習済みの推論ステップをすべて使っても解に到達できないときに、行き詰まりを越える能力の組み合わせも必要になる
  数学のような領域では、数学特化の推論ステップが少数あるだけでもかなり遠くまで行けるかもしれないが、数学自体にも代数、幾何、微積分、位相幾何学のような多くの下位領域がある
  私の知る限り、ある分野の手法が別の分野で有用なのは、問題を別の領域に写像できる範囲に限られる
厳選された817個の数学問題セットが、多様な問題で数学の学生を訓練する教材としても有用なのか気になる
LIMO仮説のように、小さなデータセットで微調整して小さなモデル内の効率的な推論ポテンシャルを引き出せるなら、巨大モデルから小さなモデルへの権力移動が大きく起こり得る
このプロセスが反復可能なら、ほぼ無制限の力を提供するように見える
ただし、その循環を維持するには、データセットが何らかの性質を備えている必要がある
モデルサイズに合わせて推論を調整するよう教えなければならず、探索空間において小さな分岐係数で推論連鎖の深さを拡張し、深いパターンを検知する最小被覆のような方法で検証されるべきだ
分野がますますLLM教育学になっていく様子が興味深い
推論とは予測の技術である
現実に関する多くの観察を、新しい観察を十分うまく予測する小さな現実モデルへと蒸留することだ
「私が見ているものの大半を説明する最も単純なモデルは何か？」が、心が答えようとする核心的な問いである
そのようなモデルを作る技術を身につけると、新しい問題を私たちのモデルにパターンマッチさせ、そのモデルで結果を予測するようになる

LIMO: 推論は少ないほどよい (Less is More for Reasoning)

LIMO仮説が狙う既存の通説

少ないデータでも可能な理由

800サンプルを選ぶ方法

ベンチマーク性能

貢献と公開資料

関連記事

1件のコメント

Hacker Newsの意見