「RLHFはRLのごく一部にすぎません」 - Andrej Karpathy

xguru · 2024-08-09T10:46:01+09:00

Reinforcement Learning from Human Feedback (RLHF) は、事前学習（pretraining）と教師ありファインチューニング（supervised finetuning, SFT）に続く、LLM学習の3番目（そして最後）の主要段階である RLHFについての私の考えは、これはRLの一部分にすぎず、その点はあまり広く知られていないということ RLHFは実際にはRL（強化学習）と呼ぶには不十分であるたとえばAlphaGoは実際のRLで訓練されており、もしRLHFで訓練されていたなら、現在のような成果は出せなかっただろう AlphaGoをRLHFで訓練したらどうなっていただろうか？人間の評価者に2つの碁盤の状態を提示し、どちらがより良いかを選ばせるこのような比較を約10万件集め、人間の評価（印象チェック）を模倣する「Reward Model」（RM、報酬モデル）ニューラルネットワークを学習させるこの報酬モデルを基準にRLを行い、高い評価を受ける手を学習するしかし、これは囲碁で意味のある成果を出せなかっただろう RLHFがAlphaGoに適していない2つの主な理由第一に、印象は誤解を招く可能性がある。この報酬は実際の勝利という報酬ではなく、不正確なプロキシ目標である第二に、RLの最適化過程で、報酬モデルが訓練データの範囲を外れた異常な状態に高い点数を与え、最適化が歪められる可能性が高い RMは印象を模倣する、数十億のパラメータを持つ大規模なニューラルネットワークである LLMにRLHFを適用するときの問題点 LLMの報酬モデルもまた、人間の評価者が好みそうな応答に高い点数を与える傾向があるこの報酬モデルは「実際の」問題を解決しているのではなく、人間が好みそうな応答を評価する代理目標にすぎない RLHFをあまり長く実行できないのは、モデルが報酬モデルをだます形で応答する方法をすぐに学習してしまうためである LLMアシスタントが "The the the the the the" のようなおかしな応答をし始めるのを目にすることがあるこれは滑稽に見えるが、RMはこれを非常に優れていると判断する RMの訓練データ範囲外の領域で敵対的サンプルを発見したのであるこうした理由から、RLHFはあまり多くの最適化ステップで実行できず、数百〜千ステップほど実行した後は、最適化がRMをだまし始めるため停止しなければならないこれはAlphaGoのようなRLではないそれでもRLHFがLLM Assistantの構築に有用な理由 RLHFはGenerator（生成器）-Discriminator（識別器）間のギャップから恩恵を受けるつまり、多くの問題タイプでは、人間の評価者が最初から理想的な答えを書くよりも、いくつかの候補回答の中から最良の答えを選ぶほうがはるかに容易な作業である良い例として、「クリップについての詩を生成せよ」のようなプロンプトでは、複数の候補から良い詩を選ぶほうが簡単である RLHFは、このような人間による監督の「容易さ」のギャップから恩恵を得る方法であるまた、RLHFはハルシネーション（誤情報の生成）を減らすのにも有用である RMが学習中に、LLMが何かをでっち上げていることを見抜けるほど十分に強力なモデルであれば、低い報酬で不利益を与える方法を学習し、モデルに対して確信のない事実でリスクを取るのを嫌うよう教えることができるただし、ハルシネーションとその緩和に対する満足のいく対処法は、まったく別の話題である結論として「RLHFは有用だが、真のRLではない」これまでのところ、オープンドメインで大規模かつ本番レベルの「実際の」RLをLLMに対して説得力をもって達成し、実証した例はない直感的に考えても、オープンドメインの問題解決で実際の報酬（つまり、ゲームに勝つことのようなもの）を得るのは非常に難しいからである力学が限定され、報酬関数が評価しやすく、だますことのできない囲碁のような閉じたゲーム的環境では面白いたとえば、文書要約や少し曖昧な質問への回答、冗談を言うこと、JavaコードをPythonに書き換えることなどに対して、どうやって客観的な報酬を与えられるだろうか？そこへ至る道は、原理的に不可能ではないが、決して自明でもなく、創造的な思考を必要とするしかしこの問題を説得力をもって解決する人は、本当のRLを実行できるだろう AlphaGoが囲碁で人間に勝つことを可能にした種類のRLであるこの問題を解決する人は、オープンドメインの問題解決で人間を上回るLLMを作れるだろう

(twitter.com/karpathy)

8 ポイント投稿者 xguru 2024-08-09 | 1件のコメント | WhatsAppで共有

Reinforcement Learning from Human Feedback (RLHF) は、事前学習（pretraining）と教師ありファインチューニング（supervised finetuning, SFT）に続く、LLM学習の3番目（そして最後）の主要段階である
- RLHFについての私の考えは、これはRLの一部分にすぎず、その点はあまり広く知られていないということ
- RLHFは実際にはRL（強化学習）と呼ぶには不十分である
- たとえばAlphaGoは実際のRLで訓練されており、もしRLHFで訓練されていたなら、現在のような成果は出せなかっただろう
AlphaGoをRLHFで訓練したらどうなっていただろうか？
- 人間の評価者に2つの碁盤の状態を提示し、どちらがより良いかを選ばせる
- このような比較を約10万件集め、人間の評価（印象チェック）を模倣する「Reward Model」（RM、報酬モデル）ニューラルネットワークを学習させる
- この報酬モデルを基準にRLを行い、高い評価を受ける手を学習する
- しかし、これは囲碁で意味のある成果を出せなかっただろう
RLHFがAlphaGoに適していない2つの主な理由
- 第一に、印象は誤解を招く可能性がある。この報酬は実際の勝利という報酬ではなく、不正確なプロキシ目標である
- 第二に、RLの最適化過程で、報酬モデルが訓練データの範囲を外れた異常な状態に高い点数を与え、最適化が歪められる可能性が高い
  - RMは印象を模倣する、数十億のパラメータを持つ大規模なニューラルネットワークである
LLMにRLHFを適用するときの問題点
- LLMの報酬モデルもまた、人間の評価者が好みそうな応答に高い点数を与える傾向がある
  - この報酬モデルは「実際の」問題を解決しているのではなく、人間が好みそうな応答を評価する代理目標にすぎない
- RLHFをあまり長く実行できないのは、モデルが報酬モデルをだます形で応答する方法をすぐに学習してしまうためである
- LLMアシスタントが "The the the the the the" のようなおかしな応答をし始めるのを目にすることがある
- これは滑稽に見えるが、RMはこれを非常に優れていると判断する
- RMの訓練データ範囲外の領域で敵対的サンプルを発見したのである
- こうした理由から、RLHFはあまり多くの最適化ステップで実行できず、数百〜千ステップほど実行した後は、最適化がRMをだまし始めるため停止しなければならない
- これはAlphaGoのようなRLではない
それでもRLHFがLLM Assistantの構築に有用な理由
- RLHFはGenerator（生成器）-Discriminator（識別器）間のギャップから恩恵を受ける
  - つまり、多くの問題タイプでは、人間の評価者が最初から理想的な答えを書くよりも、いくつかの候補回答の中から最良の答えを選ぶほうがはるかに容易な作業である
  - 良い例として、「クリップについての詩を生成せよ」のようなプロンプトでは、複数の候補から良い詩を選ぶほうが簡単である
- RLHFは、このような人間による監督の「容易さ」のギャップから恩恵を得る方法である
- また、RLHFはハルシネーション（誤情報の生成）を減らすのにも有用である
  - RMが学習中に、LLMが何かをでっち上げていることを見抜けるほど十分に強力なモデルであれば、低い報酬で不利益を与える方法を学習し、モデルに対して確信のない事実でリスクを取るのを嫌うよう教えることができる
  - ただし、ハルシネーションとその緩和に対する満足のいく対処法は、まったく別の話題である
結論として「RLHFは有用だが、真のRLではない」
- これまでのところ、オープンドメインで大規模かつ本番レベルの「実際の」RLをLLMに対して説得力をもって達成し、実証した例はない
- 直感的に考えても、オープンドメインの問題解決で実際の報酬（つまり、ゲームに勝つことのようなもの）を得るのは非常に難しいからである
- 力学が限定され、報酬関数が評価しやすく、だますことのできない囲碁のような閉じたゲーム的環境では面白い
- たとえば、文書要約や少し曖昧な質問への回答、冗談を言うこと、JavaコードをPythonに書き換えることなどに対して、どうやって客観的な報酬を与えられるだろうか？
  - そこへ至る道は、原理的に不可能ではないが、決して自明でもなく、創造的な思考を必要とする
  - しかしこの問題を説得力をもって解決する人は、本当のRLを実行できるだろう
    - AlphaGoが囲碁で人間に勝つことを可能にした種類のRLである
  - この問題を解決する人は、オープンドメインの問題解決で人間を上回るLLMを作れるだろう

1件のコメント

xguru 2024-08-09

Hacker Newsの意見

AIコーディング支援は今後数年で大きく進化するはず
- Chat AIは明確な報酬関数がないため、品質判断が難しい
- コーディングAIはテスト作成、コード作成、コンパイル、失敗したテストケースの確認などを無限ループで実行できる
- この過程は将来のAIコーディングモデルの訓練データとして使える
- 言語モデルは数学の定理証明でも優れた成果を示すはず
- 定理検証ソフトウェアは100%正確なフィードバックを提供し、強化学習を可能にする
- プログラムの正しさに対する形式的検証は退屈だが、LLMはこれを変えられるかもしれない
- LLMが生成した注釈をエンジンが使って正しさを証明できる
RLHFに似た安価なDIY手法として、出力にスコアを追加するようモデルを微調整する方法がある
- 良い回答を作る損失関数を書けないため、RLHFが必要になる
- ベースモデルがプロンプトに対してn個の補完を生成し、それを手動で採点する
- その後、プロンプト => (補完, スコア) のペアが訓練セットになる
- モデルが訓練されると、プロンプトに望むスコアを含めれば、モデルはそのスコアに合う回答を生成しようとする
さまざまなMLアルゴリズムが報酬関数を「攻略」する問題は、金融や経済の問題に似ている
- 人々が生産的な仕事をせずに金を得ようとすると、非生産的なことが増える
- これを緩和するには、報酬関数を攻略することを罰するシステムが必要になる
- このシステムは実際の価値を理解し、報酬関数は高いが価値は低いケースを識別できなければならない
Karpathyはこのテーマについてはるかによく理解しているが、この投稿には何か欠けている気がする
- Goは人間が解き切るには複雑すぎるゲームだ
- LLMの目標は人間を完全に模倣することだ
- AlphaGoやStockfishはゲーム理解を発展させられるが、LLMは言語の境界を広げられない
- LLMは本質的に模倣モデルなので、RLHFはLLMの領域でより意味がある
現在のtransformerベースLLMと最適なシーケンス予測の間にある「ギャップ」が何なのか気になる
- 現在のLLMは訓練中、トークン予測の交差エントロピーを最小化する単純な目的関数を持つ
- Solomonoff inductionは最適なシーケンス予測を達成する
- SIとGPT4の対話がどれほど違うのか気になる
- AGIには最適なシーケンス予測以上のものが必要だ
- 人間志向の目的関数は、ユーザーが満足する回答を提供する確率を最大化することだ
- ただしユーザーは複数いるため、どう集約するかが問題になる
- Karpathyはこの問題を示唆している
LEANのような証明分野には、状態、行動、進捗の測定、最終目標状態がある
- KarpathyがLEAN証明の自動化に集中すれば、数学を永遠に変えるかもしれない
AlphaGoには人間のフィードバックはなかったが、人間から学んだ
- AlphaZeroは人間の影響を排除し、純粋な強化学習を使った
SPAG論文は、言語モデルを使った真の強化学習の例だ
- Karpathyの投稿では「規模」と「オープンドメイン」が欠けている
- 敵対的な言語ゲームは有望に見える
LLM + RLがオープンドメインの問題解決で人間を上回るという結論には、根拠が不足している

「RLHFはRLのごく一部にすぎません」 - Andrej Karpathy

関連記事

1件のコメント

Hacker Newsの意見