15 ポイント 投稿者 xguru 2023-02-08 | まだコメントはありません。 | WhatsAppで共有
  • モデルが生成した結果の「良さ」を判断するうえで、最も適切な指標は人間の選好スコア
  • 人がモデルの結果に対して評価したフィードバックを、生成されたテキストの優秀さの指標として用い、さらにそのフィードバックを反映したlossを設計してモデルを最適化するのがRLHF(Reinforcement Learning from Human Feedback)
  • RLHF: Step by Step
    • #1 Language Modelを学習する(pre-training)
    • #2 Reward Model学習のためのデータ収集およびモデル学習
    • #3 Reinforcement Learningを通じてLanguage Modelをfine-tuningする
  • RLHF、考えるべきこと
    • 現時点での限界

まだコメントはありません。

まだコメントはありません。