LADDER: 再帰的な問題分解による自己改善LLM
(arxiv.org)LADDER: 自己改善によるLLMの問題解決能力向上
-
LADDERの紹介: LADDERは、複雑な問題を段階的により簡単な形へ変換することで、大規模言語モデル(LLM)が自ら問題解決能力を向上させるフレームワーク。既存のデータセットや人間からのフィードバックなしに、モデル自身の能力を活用して、より易しい問題変形を生成する。
-
有効性: LADDERは数学的積分の分野で、Llama 3.2 3Bの正答率を1%から82%へ向上させ、Qwen2.5 7B Deepseek-R1 DistilledがMIT Integration Bee予選で73%を達成できるようにした。
-
TTRLの紹介: TTRL(Test-Time Reinforcement Learning)は、テスト問題の変形を通じて推論時に強化学習を行う方法。これにより、Qwen2.5 7B Deepseek-R1 DistilledはMIT Integration Bee予選で90%という最先端スコアを記録し、OpenAI o1の性能を上回った。
-
結果の重要性: これらの結果は、自律的かつ戦略的な学習が、アーキテクチャの拡張や人間による監督なしでも、大幅な能力向上を実現できることを示している。
1件のコメント
Hacker Newsの意見
今週何が起きているのか気になる。この2日ほどで、機械学習における興味深いブレークスルーを何度も目にした
著名な数論数学者Hendrik Lenstraの引用を思い出した
彼らのテスト時強化学習アプローチには少し懐疑的
LADDERが数学的積分というテーマにおける有効性を示している。Llama 3.2 3Bの正確度を1%から82%へ向上させた
Frank Herbertはこれを分かっていた。これはDuneで描かれたメンタートの再帰的自己点検の実装だ
テスト時訓練/強化学習は、未来の数学AIに適したアプローチだ。これは与えられた問題に対して膨大な計算資源を使う数少ない方法の一つである可能性が高い。Alphaproofはすでにこれを行っていたが、再び実施されて良い結果が出ているのは喜ばしい
話はそれるが、彼らのサイトは美しい。金鉱を見つけたような気分だ
名前によっては魅力が強すぎるものがある
論文の終盤で、2025 MIT Integration Bee予選試験の2問に言及している。システムは繰り返し間違った答えを出したという