- Reinforcement Learning from Human Feedback (RLHF) は、事前学習(pretraining)と教師ありファインチューニング(supervised finetuning, SFT)に続く、LLM学習の3番目(そして最後)の主要段階である
- RLHFについての私の考えは、これはRLの一部分にすぎず、その点はあまり広く知られていないということ
- RLHFは実際にはRL(強化学習)と呼ぶには不十分である
- たとえばAlphaGoは実際のRLで訓練されており、もしRLHFで訓練されていたなら、現在のような成果は出せなかっただろう
- AlphaGoをRLHFで訓練したらどうなっていただろうか?
- 人間の評価者に2つの碁盤の状態を提示し、どちらがより良いかを選ばせる
- このような比較を約10万件集め、人間の評価(印象チェック)を模倣する「Reward Model」(RM、報酬モデル)ニューラルネットワークを学習させる
- この報酬モデルを基準にRLを行い、高い評価を受ける手を学習する
- しかし、これは囲碁で意味のある成果を出せなかっただろう
- RLHFがAlphaGoに適していない2つの主な理由
- 第一に、印象は誤解を招く可能性がある。この報酬は実際の勝利という報酬ではなく、不正確なプロキシ目標である
- 第二に、RLの最適化過程で、報酬モデルが訓練データの範囲を外れた異常な状態に高い点数を与え、最適化が歪められる可能性が高い
- RMは印象を模倣する、数十億のパラメータを持つ大規模なニューラルネットワークである
- LLMにRLHFを適用するときの問題点
- LLMの報酬モデルもまた、人間の評価者が好みそうな応答に高い点数を与える傾向がある
- この報酬モデルは「実際の」問題を解決しているのではなく、人間が好みそうな応答を評価する代理目標にすぎない
- RLHFをあまり長く実行できないのは、モデルが報酬モデルをだます形で応答する方法をすぐに学習してしまうためである
- LLMアシスタントが "The the the the the the" のようなおかしな応答をし始めるのを目にすることがある
- これは滑稽に見えるが、RMはこれを非常に優れていると判断する
- RMの訓練データ範囲外の領域で敵対的サンプルを発見したのである
- こうした理由から、RLHFはあまり多くの最適化ステップで実行できず、数百〜千ステップほど実行した後は、最適化がRMをだまし始めるため停止しなければならない
- これはAlphaGoのようなRLではない
- それでもRLHFがLLM Assistantの構築に有用な理由
- RLHFはGenerator(生成器)-Discriminator(識別器)間のギャップから恩恵を受ける
- つまり、多くの問題タイプでは、人間の評価者が最初から理想的な答えを書くよりも、いくつかの候補回答の中から最良の答えを選ぶほうがはるかに容易な作業である
- 良い例として、「クリップについての詩を生成せよ」のようなプロンプトでは、複数の候補から良い詩を選ぶほうが簡単である
- RLHFは、このような人間による監督の「容易さ」のギャップから恩恵を得る方法である
- また、RLHFはハルシネーション(誤情報の生成)を減らすのにも有用である
- RMが学習中に、LLMが何かをでっち上げていることを見抜けるほど十分に強力なモデルであれば、低い報酬で不利益を与える方法を学習し、モデルに対して確信のない事実でリスクを取るのを嫌うよう教えることができる
- ただし、ハルシネーションとその緩和に対する満足のいく対処法は、まったく別の話題である
- 結論として「RLHFは有用だが、真のRLではない」
- これまでのところ、オープンドメインで大規模かつ本番レベルの「実際の」RLをLLMに対して説得力をもって達成し、実証した例はない
- 直感的に考えても、オープンドメインの問題解決で実際の報酬(つまり、ゲームに勝つことのようなもの)を得るのは非常に難しいからである
- 力学が限定され、報酬関数が評価しやすく、だますことのできない囲碁のような閉じたゲーム的環境では面白い
- たとえば、文書要約や少し曖昧な質問への回答、冗談を言うこと、JavaコードをPythonに書き換えることなどに対して、どうやって客観的な報酬を与えられるだろうか?
- そこへ至る道は、原理的に不可能ではないが、決して自明でもなく、創造的な思考を必要とする
- しかしこの問題を説得力をもって解決する人は、本当のRLを実行できるだろう
- AlphaGoが囲碁で人間に勝つことを可能にした種類のRLである
- この問題を解決する人は、オープンドメインの問題解決で人間を上回るLLMを作れるだろう
1件のコメント
Hacker Newsの意見
AIコーディング支援は今後数年で大きく進化するはず
RLHFに似た安価なDIY手法として、出力にスコアを追加するようモデルを微調整する方法がある
さまざまなMLアルゴリズムが報酬関数を「攻略」する問題は、金融や経済の問題に似ている
Karpathyはこのテーマについてはるかによく理解しているが、この投稿には何か欠けている気がする
現在のtransformerベースLLMと最適なシーケンス予測の間にある「ギャップ」が何なのか気になる
LEANのような証明分野には、状態、行動、進捗の測定、最終目標状態がある
AlphaGoには人間のフィードバックはなかったが、人間から学んだ
SPAG論文は、言語モデルを使った真の強化学習の例だ
LLM + RLがオープンドメインの問題解決で人間を上回るという結論には、根拠が不足している