自己改善型推論者を可能にする認知的行動
(arxiv.org)-
認知的行動はいかにして自己改善型推論者を可能にするのか、あるいは非常に効果的なSTaRsの4つの習慣
-
テスト時推論: 言語モデルが複雑な問題について、より長く慎重に考えられるようにする強力なパラダイムである。強化学習(RL)は、検証可能なタスクにおいて言語モデルの自己改善を促進できるが、あるモデルは顕著な成果を示す一方で、別のモデルはすぐに頭打ちになる。たとえば、Qwen-2.5-3Bは同一のRL訓練下でLlama-3.2-3Bを大きく上回る。
-
内在的属性: 効果的な自己改善を可能にする内在的属性は何か、という問いが提起される。これを調べるために、検証、バックトラッキング、下位目標設定、逆方向チェイニングという4つの主要な認知的行動を分析するフレームワークを導入する。これらの行動は、熟練した人間の問題解決者と成功した言語モデルが用いるものである。
-
実験結果: Qwenは自然にこのような推論行動を示す一方、Llamaは当初それが不足している。制御された行動データセットを用いた体系的な実験では、こうした推論行動を含む例でLlamaを準備させると、RLの間に大幅な改善を達成し、Qwenの性能に匹敵するか、それを上回ることが分かった。
-
推論行動の重要性: 正答の正確さよりも、推論行動の存在が重要な要素である。正しい推論パターンを含む誤った解法で準備されたモデルは、正しい解法で訓練されたモデルと同様の性能を達成する。
-
継続事前学習: OpenWebMathデータを用い、推論行動を増幅するフィルタリングを通じて、LlamaモデルがQwenの自己改善軌道をたどれるようにする。これにより、初期の推論行動と改善能力の間にある根本的な関係が確立され、一部の言語モデルが追加の計算を効果的に活用できる理由が説明される。
まだコメントはありません。