強化学習による言語モデルの自己修正訓練
(arxiv.org)言語モデルの自己修正訓練のための強化学習
-
自己修正の必要性
- 大規模言語モデル(LLM)の自己修正能力は非常に望ましいが、現代のLLMでは効果的ではない
- 既存の自己修正訓練手法は、複数のモデルを必要とするか、より高性能なモデル、または別形式の監督を必要とする
-
SCoReアプローチ
- SCoReはマルチターンのオンライン強化学習(RL)アプローチであり、完全に自己生成されたデータを用いてLLMの自己修正能力を大幅に向上させる
- SCoReを構築するために、オフラインのモデル生成修正トレースに対する教師ありファインチューニング(SFT)の変種が、自己修正行動を注入するのに十分ではないことを示す
- SFTによる訓練は、訓練データとモデル自身の応答との分布不一致に苦しむか、特定の修正行動モードだけを好むため、テスト時には効果的でない
-
SCoReの解決策
- モデル自身が生成した修正トレース分布の下で訓練し、適切な正則化を用いて、テスト時に有効な自己修正戦略を学習できるよう学習過程を調整する
- 第1のRL段階を実行して方策初期化を生成し、訓練中の自己修正を増幅するために報酬ボーナスを用いる
-
性能結果
- Gemini 1.0 Proおよび1.5 Flashモデルに適用したところ、SCoReはMATHおよびHumanEvalベンチマークで、それぞれ15.6%および9.1%の自己修正性能向上を達成した
GN⁺のまとめ
- この論文は、大規模言語モデルの自己修正能力を強化学習によって大幅に向上させる方法を提案する
- SCoReアプローチは、自己生成データを用いてモデルの分布不一致問題を解決し、テスト時に有効な修正戦略を学習できるようにする
- この研究は、特にGeminiモデルで優れた性能向上を示している
- 自己修正能力は、言語モデルの信頼性と正確性を高めるうえで重要な要素である
- 類似機能を持つプロジェクトとして、OpenAIのGPTシリーズがある
1件のコメント
Hacker Newsのコメント
OpenAIのo1モデルと似たアプローチ
Answer 1, Reasoning, Corrected Answerと「Corrected Answerを改善せよ」というシグナルを受け取ると、2つの方法があるReasoning, Corrected Answerを改善するAnswer 1を改善してCorrected AnswerをAnswer 1と同一にするLLMには自身の訓練に関する直接的な記憶がない
これは一種の知識蒸留なのかという質問がある
自己回帰的な次トークン予測パラダイムでは、幻覚を除去できないという意見がある
AIの専門家たちが「幻覚」という概念を大衆化したことへの不満がある
知的なアルゴリズムが非知的な次単語予測器を導いても、やはり非知的なアルゴリズムである