ChatGPTはどのように学習されたのか - RLHF

xguru · 2023-02-08T10:42:16+09:00

モデルが生成した結果の「良さ」を判断するうえで、最も適切な指標は人間の選好スコア人がモデルの結果に対して評価したフィードバックを、生成されたテキストの優秀さの指標として用い、さらにそのフィードバックを反映したlossを設計してモデルを最適化するのがRLHF（Reinforcement Learning from Human Feedback） RLHF: Step by Step #1 Language Modelを学習する（pre-training） #2 Reward Model学習のためのデータ収集およびモデル学習 #3 Reinforcement Learningを通じてLanguage Modelをfine-tuningする RLHF、考えるべきこと現時点での限界

(littlefoxdiary.tistory.com)

15 ポイント投稿者 xguru 2023-02-08 | まだコメントはありません。 | WhatsAppで共有

モデルが生成した結果の「良さ」を判断するうえで、最も適切な指標は人間の選好スコア
人がモデルの結果に対して評価したフィードバックを、生成されたテキストの優秀さの指標として用い、さらにそのフィードバックを反映したlossを設計してモデルを最適化するのがRLHF（Reinforcement Learning from Human Feedback）
RLHF: Step by Step
- #1 Language Modelを学習する（pre-training）
- #2 Reward Model学習のためのデータ収集およびモデル学習
- #3 Reinforcement Learningを通じてLanguage Modelをfine-tuningする
RLHF、考えるべきこと
- 現時点での限界

ChatGPTはどのように学習されたのか - RLHF

関連記事

まだコメントはありません。