2 ポイント 投稿者 GN⁺ 2024-09-22 | 1件のコメント | WhatsAppで共有

言語モデルの自己修正訓練のための強化学習

  • 自己修正の必要性

    • 大規模言語モデル(LLM)の自己修正能力は非常に望ましいが、現代のLLMでは効果的ではない
    • 既存の自己修正訓練手法は、複数のモデルを必要とするか、より高性能なモデル、または別形式の監督を必要とする
  • SCoReアプローチ

    • SCoReはマルチターンのオンライン強化学習(RL)アプローチであり、完全に自己生成されたデータを用いてLLMの自己修正能力を大幅に向上させる
    • SCoReを構築するために、オフラインのモデル生成修正トレースに対する教師ありファインチューニング(SFT)の変種が、自己修正行動を注入するのに十分ではないことを示す
    • SFTによる訓練は、訓練データとモデル自身の応答との分布不一致に苦しむか、特定の修正行動モードだけを好むため、テスト時には効果的でない
  • SCoReの解決策

    • モデル自身が生成した修正トレース分布の下で訓練し、適切な正則化を用いて、テスト時に有効な自己修正戦略を学習できるよう学習過程を調整する
    • 第1のRL段階を実行して方策初期化を生成し、訓練中の自己修正を増幅するために報酬ボーナスを用いる
  • 性能結果

    • Gemini 1.0 Proおよび1.5 Flashモデルに適用したところ、SCoReはMATHおよびHumanEvalベンチマークで、それぞれ15.6%および9.1%の自己修正性能向上を達成した

GN⁺のまとめ

  • この論文は、大規模言語モデルの自己修正能力を強化学習によって大幅に向上させる方法を提案する
  • SCoReアプローチは、自己生成データを用いてモデルの分布不一致問題を解決し、テスト時に有効な修正戦略を学習できるようにする
  • この研究は、特にGeminiモデルで優れた性能向上を示している
  • 自己修正能力は、言語モデルの信頼性と正確性を高めるうえで重要な要素である
  • 類似機能を持つプロジェクトとして、OpenAIのGPTシリーズがある

1件のコメント

 
GN⁺ 2024-09-22
Hacker Newsのコメント
  • OpenAIのo1モデルと似たアプローチ

    • 論文では重み公開への言及がない
    • 論文が主題を直接説明せず回りくどいため、理解しづらかった
    • LLMの難しい問題に対する正答率を上げるために「自己修正」行動を訓練するという理論がある
    • さまざまな強化学習手法を使ってこの行動を訓練しようとしたが、うまく機能しなかった
    • 論文の主張では、モデルがAnswer 1, Reasoning, Corrected Answerと「Corrected Answerを改善せよ」というシグナルを受け取ると、2つの方法がある
      • Reasoning, Corrected Answerを改善する
      • Answer 1を改善してCorrected AnswerAnswer 1と同一にする
    • 既存研究は、後者の方法が主に起こり、望ましい行動の訓練に失敗していたことを示している
    • この論文では訓練方法を少し変更し、モデルが前者の方法を使うよう誘導している
    • 第1段階ではKLダイバージェンス損失によって、モデルが最初の回答を維持しつつ2番目の回答を改善するよう強制する
    • 第2段階では最初の回答を変更できるが、「flips」により高い報酬を与えるよう報酬関数を調整する
    • この方法は全体としてモデルを改善しつつ、自己修正行動も維持する
    • 第2段階では、モデルが報酬最大化のために最初の回答をより悪く書く問題への懸念がある
  • LLMには自身の訓練に関する直接的な記憶がない

    • 人間は、自分が知っていることを話す前に、それをどうやって/なぜ知っているのかを確認する
    • LLMは訓練を記憶していないため、自己修正が難しい
  • これは一種の知識蒸留なのかという質問がある

  • 自己回帰的な次トークン予測パラダイムでは、幻覚を除去できないという意見がある

    • 言語モデルを決定論的な問題解決器として使おうとする試み自体が問題だという指摘
  • AIの専門家たちが「幻覚」という概念を大衆化したことへの不満がある

    • AIが深い思考過程を経ているかのように見せてしまう
    • AIはデータに基づいて出力しているだけだ
    • JSON APIエンドポイントが誤ったデータを出力したら、「このAPIは壊れている」と言うはずだ
  • 知的なアルゴリズムが非知的な次単語予測器を導いても、やはり非知的なアルゴリズムである

    • よりエレガントにゴミを分類しているだけで、結局ゴミであることに変わりはない
    • 強化学習アプローチがトランスフォーマーアプローチを置き換えることを期待していたが、それは夢にすぎなかった