Illustrated DeepSeek-R1
(newsletter.languagemodels.co)The Illustrated DeepSeek-R1
-
DeepSeek-R1 の紹介
- DeepSeek-R1 は AI の発展における重要なマイルストーンであり、ML の研究開発コミュニティに大きな影響を与えている。
- このモデルはオープンウェイトモデルであり、小型の蒸留版も提供されている。
- OpenAI O1 のような推論モデルを再現する学習方法を共有し、それを反映している。
-
LLM 学習の要約
- DeepSeek-R1 は既存の LLM と同様に一度に 1 つのトークンを生成し、数学および推論問題の解決に優れている。
- 高品質な LLM を作る一般的なプロセスは次のとおり。
- 大量のウェブデータを使って次の単語を予測する言語モデリング段階。
- モデルが指示に従い、質問に回答できるようにする教師ありファインチューニング段階。
- 人間の選好に合わせてモデルの振る舞いを整える選好調整段階。
-
DeepSeek-R1 の学習プロセス
- DeepSeek-R1 は DeepSeek-V3 モデルのベースモデルを使用し、SFT および選好調整の段階を経ている。
- R1 の生成過程で注目すべき特別な点は 3 つある。
- 長い推論チェーンの SFT データ: 60 万件の長い推論例が含まれている。
- 暫定的な高品質推論 LLM: 推論に特化したモデルで、少量のラベル付きデータと大規模な強化学習によって生成される。
- 大規模な強化学習による推論モデルの生成: R1-Zero というモデルを通じて推論例を生成し、それによって一般モデルを学習させる。
-
R1-Zero の特徴
- R1-Zero はラベル付き SFT 学習セットがなくても、推論タスクで優れた性能を示す。
- これは現代のベースモデルが一定水準の品質と能力を超えつつあることを示唆している。
- 推論問題は自動的に検証またはラベル付けできる。
-
SFT 推論データの生成
- 暫定的な推論モデルは、数千件の推論問題の例を用いて SFT 学習段階を経る。
- このデータは、R1-Zero の出力を読みやすく加工して作られる。
-
一般的な RL 学習段階
- R1 は推論タスクと非推論タスクの両方で優れている。
- 有用性と安全性の報酬モデルを活用して、さまざまなアプリケーションに適用される。
-
アーキテクチャ
- DeepSeek-R1 は 61 個の Transformer デコーダーブロックで構成されている。
- 最初の 3 つは密なレイヤーで、残りは Mixture-of-Experts レイヤーで構成されている。
-
結論
- DeepSeek-R1 モデルの主要な概念を理解する助けになる。
- 追加情報は『Hands-On Large Language Models』の書籍または GitHub で確認できる。
まだコメントはありません。