DeepSeek-R1とは何か?
- OpenAIのo1モデルは、LLMが推論タスクをよりうまく実行できるよう、より多くの計算資源を使って訓練された。
- DeepSeek-R1はOpenAIのo1モデルと同等またはそれ以上の性能を示し、純粋な強化学習(RL)を通じて人間の監督なしに推論する方法を学習した。
- DeepSeek-R1の公開により、データ収集、モデル訓練、スケーリング則に関するさまざまな疑問が提起された。
彼らはどのように実現したのか?
- DeepSeek-R1はDeepSeek-V3をベースに構築された推論モデルであり、671BのMixture of Experts(MoE)モデルである。
- DeepSeek-R1-Zeroは強化学習のみを用いて訓練され、Group Relative Policy Optimization(GRPO)を使って効率を高めた。
- DeepSeek-R1は初期段階で小規模な例を用いて明確性と可読性を改善した後、強化学習と精製の段階を経て一貫した回答を生成する。
Open-R1: 欠けているピース
- DeepSeek-R1の公開はコミュニティに大きく貢献したが、データセットとコードは公開されていない。
- Open-R1プロジェクトは、DeepSeek-R1のデータと訓練パイプラインを再構築し、強化学習がどのように推論を向上させるのかについて透明性を提供することを目指している。
Open-R1の段階的な計画
- R1-Distillモデルの再現: DeepSeek-R1から高品質な推論データセットを抽出し、蒸留学習を行う
- R1-Zeroの純粋RL学習パイプラインの複製: 大規模な数学・論理・コードのデータセットを構築する
- ベースモデル → SFT → RLの段階的な学習プロセスを構築
貢献方法
- Open-R1プロジェクトへの貢献方法は、コードへの貢献やHugging Faceでの議論への参加など多岐にわたる。
- このプロジェクトは結果を再現するだけでなく、コミュニティと洞察を共有することにも重点を置いている。
まだコメントはありません。