DeepSeek-R1モデル公開
(github.com/deepseek-ai)- DeepSeekが第1世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を公開
- DeepSeek-R1-Zeroは大規模な強化学習(RL)のみで学習され、自ら多様な推論能力を獲得
- ただし、反復性・可読性の問題や言語の混在が見られたため、これを補い性能を高めるためにSFT段階を追加したDeepSeek-R1を提示
- DeepSeek-R1は数学、コード、推論タスクでOpenAI-o1水準の性能を達成
- 研究コミュニティ支援のため、DeepSeek-R1-Zero、DeepSeek-R1、およびそれらのモデルから推論パターンを転移して作成した蒸留モデル群を公開
- 特にDeepSeek-R1-Distill-Qwen-32BモデルはOpenAI-o1-miniを上回る性能を達成
モデル概要
-
Post-Training: ベースモデルに対する大規模強化学習
- DeepSeek-R1-Zeroは、SFTなしでRLのみを適用した第1世代モデル
- RL過程を通じて、Chain-of-thought探索能力、自己検証、リフレクション(reflection)など多様な推論パターンを獲得
- これは「SFTなしでも大規模モデルがRLだけで強力な推論能力を得られる」ことを示している
- DeepSeek-R1はこの過程を基盤に、中間でSFTを追加することで、推論能力と一般的な言語運用能力をさらに強化
-
Distillation: 小型モデルでも高性能になりうる
- 大規模モデルが学習した推論パターンを小型モデルにも移せることを実証
- DeepSeek-R1が生成したデータを活用してQwen、Llamaシリーズなどをファインチューニングし、小型のdenseモデルでも優れた性能を示した
- 1.5B、7B、8B、14B、32B、70Bなど、さまざまなサイズの蒸留モデルを公開
モデルのダウンロード
DeepSeek-R1 Models
- DeepSeek-R1-Zero / DeepSeek-R1
- パラメータ: 総計671B(実際のアクティブパラメータは37B)
- コンテキスト長は128K
- HuggingFaceからダウンロード可能で、DeepSeek-V3-BaseモデルをベースにRL方式で学習
DeepSeek-R1-Distill Models
- Qwen2.5およびLlama3シリーズをベースに蒸留
- 1.5Bから70Bまで、さまざまなパラメータサイズを提供
- DeepSeek-R1が生成した高品質な推論データを活用してファインチューニング済み
- 一部設定(tokenizer、config)を変更しているため、案内された設定を使用する必要がある
評価結果
DeepSeek-R1-Evaluation
- DeepSeek-R1は英語(MMLU、DROPなど)、コード(Codeforces、LiveCodeBenchなど)、数学(AIME、MATH-500など)、中国語(C-Evalなど)で高いスコアを達成
- 特に数学分野のAIME、MATH-500などで高いpass@1を記録
- OpenAI-o1-mini、Claude、GPT-4などと比較しても、多くの項目で競争力のある性能を示した
Distilled Model Evaluation
- 蒸留モデルも数学(AIME、MATHなど)、コード(Codeforcesなど)のベンチマークで優れた結果を示した
- DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70Bなどは高いpass@1とコード解答性能を示し、小型モデル活用の可能性を示唆
チャットWebサイト & APIプラットフォーム
- chat.deepseek.comでDeepSeek-R1との対話を体験可能
- OpenAI互換のAPIプラットフォーム platform.deepseek.com も提供
ローカル実行方法
DeepSeek-R1 Models
- DeepSeek-V3リポジトリを参考に、128Kトークンの最大長設定など詳細を確認したうえで実行可能
DeepSeek-R1-Distill Models
- Qwen、Llamaモデルと同じ方式で利用可能
- 例: vLLM、SGLangなどを使って高速にサービングできる
- 温度(temperature)は0.5〜0.7程度に設定することを推奨
ライセンス
- DeepSeek-R1シリーズはMITライセンスの下で配布
- ただし、QwenベースのモデルはApache 2.0、Llamaベースのモデルはllama3.xライセンスに従う点に注意が必要
- 商用利用の許可、修正・派生モデルの作成が可能など、柔軟なライセンス方針を備える
5件のコメント
Deepseek - 中国AI競争を先導する静かな巨人
Deepseek V3は過学習かどうかをテストするベンチマークで良くない性能を示した
DeepSeek v3に関するノート - "本当にGPT-4oや3.5 Sonnetより優れているのか?"
こうやってコメントに見やすくリンクを付けたり、本文を引用したりしている方もいるようですが、もしかしてコメントで使える記法がまとまっていたりしますか?
数日見ているうちに、だんだんサイトが気に入ってきて、コメントもしてみたくなりましたね
https://news.hada.io/guidelines
> Markdown対応
> 本文とコメントの両方で利用できます。
> 基本的にCommonMark規約に従います。
> 画像はサポートされていません。
ありがとうございます。他のコメントで引用を使ってみようと思ったのですが、修正できないので無難に使わなかったんですけど、Markdownで合っていたんですね。
役立ててみます(笑)
Hacker Newsのコメント
Llama 3の量子化版を使って実験を進めている。Ollamaとllm-ollamaプラグインを使ってモデルを実行し、ログを記録している。モデルを読み込んだ後、uvxを使ってさまざまなプロンプトをテストできる。実験結果をブログにまとめている。
DeepSeek-R1-Zeroは、反復、可読性の問題、言語の混在といった問題を抱えていた。これを解決するためにDeepSeek-R1が導入された。OpenAI o1とQwQ-32B-Previewを使った実験では、QwQは反復ループに陥る傾向があった。DeepSeek-R1はこうした問題を解決している。MITライセンスで提供されているため、より多くの人が評価できるようになった。
"strawberry" の 'r' の数を尋ねる質問で、モデルが自分自身と議論しながら正解を見つける過程を見せている。この過程が面白いと言及している。
ChatGPT o1、DeepSeekのDeepThink、Gemini 2.0 Flash Thinking Experimentalを比較した結果、ChatGPT o1が最も優れており、DeepSeekが最も弱かった。DeepSeek-R1をテストしたところ、以前より改善した性能を示した。個人的なユースケースでは、LLMのほうがより有用だと感じた。
Llama 8BモデルがClaude 3.5 Sonnetより強力だというベンチマーク結果が出ている。小さなモデルが強力な性能を見せていることに驚きを示している。
1年前に設立された小さな会社がOpenAIと競争できる点は驚くべきことだと言及している。中国がAI分野で米国をリードしており、モデルをオープンソースで提供している点で、真の "Open AI" 企業だと評価している。
DS3に対して当初は期待があったが、function callingの問題、応答品質の低下、サポート不足などの問題を見つけた。しかしその結果、他のAPIのトラフィックが減り、レイテンシが改善した。
7bと8bバージョンの違いについて混乱を示している。OllamaにQwen 7Bバージョンをアップロードしたことを知らせている.