RLHF本が刊行

(rlhfbook.com)

4 ポイント投稿者 GN⁺ 2025-02-03 | まだコメントはありません。 | WhatsAppで共有

言語モデルのRLHFとポストトレーニングを一か所で学べる無料オンライン書籍・講義で、定量的なバックグラウンドを持つ読者が学習手順全体を追えるように構成されている
中心となる流れはRLHFレシピで、instruction tuning、reward model学習、rejection sampling、reinforcement learning、on-policy distillation、direct alignmentアルゴリズムをつなげて説明している
技術的なマイルストーンだけでなく、経済学、哲学、最適制御などにつながるRLHFの起源も扱い、概念が生まれた背景を広く見渡せる
付随資料として、アルゴリズムのコードベース、ポストトレーニング段階ごとのモデル完成度比較用ライブラリ、教育用講義ページが提供される
2026年4月の最終編集とManning版の改善反映後に印刷版へ移行し、今後はコンテンツ変更が少なくなる予定

RLHFとポストトレーニングを学ぶ本

RLHFは最新の大規模機械学習システムを構築する重要なツールとなり、議論の範囲も中核的なRLHF手法から、より広い**ポストトレーニング(post-training)**手法群へと拡張されている
言語モデルに焦点を当てた短い入門から始まり、定量的なバックグラウンドを持つ読者がモデルのポストトレーニングの主要な方法を順に理解できるように構成されている
標準的なRLHF手順に沿って、次のトピックを扱う
- RLHFが何を行い、なぜ作られたのか
- 短い歴史の中での主要な技術的マイルストーン
- 本書を理解するために必要なreinforcement learningの背景
- instruction tuningからreward model学習へと続く最適化段階
- rejection sampling、reinforcement learning、on-policy distillation、direct alignmentアルゴリズム
後半では、合成データ、ツール利用、キャラクター学習、評価のように、研究がまだ少ない、または新しく浮上している問いや分野のオープンクエスチョンを扱う

ポストトレーニング済み言語モデルの基礎概念を学ぶための付随資料も提供される
- codebase: 本書に掲載されたアルゴリズム実装
- library: ポストトレーニング段階の中でモデルの完成度を比較するライブラリ
- course: 教育用講義ページ
2026年の変更点
- 2026年4月: 印刷版に向けた最終編集、Manning版の改善点の反映、数式と用語の明確化、全章の誤字・文法修正、製品章の拡充
- 2026年3月: 講義動画付きのcourse pageを公開、PDFの構文ハイライト、製品章の拡充
- 2026年2月: v2コンテンツとしてdirect alignment章、新しいダイアグラム、RLチートシート、付録、検索ボックス、Kindle対応、編集上の修正を追加
- 2026年1月: Manning本の構成に合わせた主要章の再構成、コード例ライブラリ、既存URLの新しい場所へのリダイレクトを適用
- 2025年と2024年には、DPO、RLVR/reasoning、tool use、evaluation、overoptimization、reward modeling、preference data、policy gradient、PPO、GAE、regularization、bibliographyなどが段階的に追加された
- 2026年版の引用形式は @book{rlhf2026lambert, ... title = {Reinforcement Learning from Human Feedback}, year = {2026}, publisher = {Online}, url = {https://rlhfbook.com}} として提供されている