ChatGPTはどのように学習されたのか - RLHF
(littlefoxdiary.tistory.com)- モデルが生成した結果の「良さ」を判断するうえで、最も適切な指標は人間の選好スコア
- 人がモデルの結果に対して評価したフィードバックを、生成されたテキストの優秀さの指標として用い、さらにそのフィードバックを反映したlossを設計してモデルを最適化するのがRLHF(Reinforcement Learning from Human Feedback)
- RLHF: Step by Step
- #1 Language Modelを学習する(pre-training)
- #2 Reward Model学習のためのデータ収集およびモデル学習
- #3 Reinforcement Learningを通じてLanguage Modelをfine-tuningする
- RLHF、考えるべきこと
- 現時点での限界
まだコメントはありません。