LADDER: 再帰的な問題分解で自己改善するLLM

(arxiv.org)

1 ポイント投稿者 GN⁺ 2025-03-08 | まだコメントはありません。 | WhatsAppで共有

LADDERは、難しい問題をより簡単な変形へと下り、再び上っていくことで、人間のフィードバックやキュレーションされたデータなしにLLMの問題解決能力を高めるフレームワーク
中核は、モデルが解けるレベルまで難易度の勾配を作り、検証可能な下位問題の解答を、より難しい問題を解くための足がかりとして使う構造
数学の積分課題では、Llama 3.2 3Bの学部レベル問題の正答率が**1%から82%**に向上し、貢献項目では初期値が2%とも記載されている
Qwen2.5 7B Deepseek-R1 Distilledは、MIT Integration Bee予選でLADDERのみで73%を記録し、GPT-4oの42%と一般的な人間の成績15〜30%を上回った
TTRLは、テスト時点でも問題変形と強化学習を適用して同試験の正答率を73%から90%に高め、OpenAI o1を上回る最新性能を達成した

LADDERが狙う学習のボトルネック

数学の積分ベンチマークで、LADDERは標準的なpass@kサンプリングで可能な水準を超える性能向上を示した
Llama 3.2 3Bは学部レベルの積分問題で正答率が82%まで上昇
- 要旨では初期正答率が1%と記載されている
- 貢献項目では初期正答率が2%と記載されている
Qwen2.5 7B Deepseek-R1 Distilledは、2025年のMIT Integration Bee予選でLADDER適用後73%の正答率を達成
- GPT-4oは42%
- 一般的な人間の成績は15〜30%
TTRL(Test-Time Reinforcement Learning)は、テスト時に問題変形を動的に作り、各テストインスタンスに強化学習を適用するマイクロ学習の過程
TTRLは訓練時に使った検証メカニズムを推論時にも活用し、解答をさらに磨き上げる
MIT Integration BeeでTTRLは、LADDERのみを使った73%を90%へ引き上げ、OpenAI o1を上回る最新性能を達成した
この結果は、アーキテクチャの拡張や人間の監督がなくても、戦略的な問題分解と検証ベースの自己学習によって大幅な性能向上が可能であることを示している