LIMO: 推論は少ないほどよい(Less is More for Reasoning)
(arxiv.org)-
研究概要
- LIMOモデルは、大規模言語モデルにおいて複雑な推論能力がどのように現れるのかを新たに理解させる発見を提示する。
- 従来の考えに反して、複雑な数学的推論は少数の例でも効果的に誘導できる。
- LIMOは、わずか817件の学習サンプルだけでAIMEで57.1%、MATHで94.8%の精度を達成した。
- これは、従来のSFTベースモデルの6.5%および59.2%と比べて大幅に向上した結果であり、従来アプローチの1%の学習データしか使用していない。
-
LIMOの性能
- LIMOは、10種類の多様なベンチマークで絶対値として40.5%の性能向上を示し、100倍多いデータで学習されたモデルを上回った。
- これは、SFTが暗記ではなく一般化につながるという従来の考えに疑問を投げかける。
-
LIMO仮説
- LIMO仮説は、基盤モデルにおいてドメイン知識が事前学習の段階で完全にエンコードされている場合、最小限のデモンストレーションだけでも複雑な推論能力が現れうることを提案する。
- 複雑な推論を誘導する閾値は、2つの主要な要因によって決まる。
- 事前学習の間にモデルへエンコードされた知識基盤の完全性。
- モデルが複雑な推論タスクを解くために知識基盤をどのように活用するかを示す「認知テンプレート」としての事後学習サンプルの有効性。
-
オープンソース提供
- データ効率的な推論に関する再現性と今後の研究を促進するため、LIMOを包括的なオープンソーススイートとして提供する。
まだコメントはありません。