DeepSeek-R1モデル公開

(github.com/deepseek-ai)

8 ポイント投稿者 GN⁺ 2025-01-21 | 5件のコメント | WhatsAppで共有

DeepSeekが第1世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を公開
DeepSeek-R1-Zeroは大規模な強化学習（RL）のみで学習され、自ら多様な推論能力を獲得
ただし、反復性・可読性の問題や言語の混在が見られたため、これを補い性能を高めるためにSFT段階を追加したDeepSeek-R1を提示
DeepSeek-R1は数学、コード、推論タスクでOpenAI-o1水準の性能を達成
研究コミュニティ支援のため、DeepSeek-R1-Zero、DeepSeek-R1、およびそれらのモデルから推論パターンを転移して作成した蒸留モデル群を公開
特にDeepSeek-R1-Distill-Qwen-32BモデルはOpenAI-o1-miniを上回る性能を達成

モデル概要

Post-Training: ベースモデルに対する大規模強化学習
- DeepSeek-R1-Zeroは、SFTなしでRLのみを適用した第1世代モデル
- RL過程を通じて、Chain-of-thought探索能力、自己検証、リフレクション（reflection）など多様な推論パターンを獲得
- これは「SFTなしでも大規模モデルがRLだけで強力な推論能力を得られる」ことを示している
- DeepSeek-R1はこの過程を基盤に、中間でSFTを追加することで、推論能力と一般的な言語運用能力をさらに強化
Distillation: 小型モデルでも高性能になりうる
- 大規模モデルが学習した推論パターンを小型モデルにも移せることを実証
- DeepSeek-R1が生成したデータを活用してQwen、Llamaシリーズなどをファインチューニングし、小型のdenseモデルでも優れた性能を示した
- 1.5B、7B、8B、14B、32B、70Bなど、さまざまなサイズの蒸留モデルを公開

モデルのダウンロード

DeepSeek-R1 Models

DeepSeek-R1-Zero / DeepSeek-R1
- パラメータ: 総計671B（実際のアクティブパラメータは37B）
- コンテキスト長は128K
- HuggingFaceからダウンロード可能で、DeepSeek-V3-BaseモデルをベースにRL方式で学習

DeepSeek-R1-Distill Models

Qwen2.5およびLlama3シリーズをベースに蒸留
1.5Bから70Bまで、さまざまなパラメータサイズを提供
DeepSeek-R1が生成した高品質な推論データを活用してファインチューニング済み
一部設定（tokenizer、config）を変更しているため、案内された設定を使用する必要がある

評価結果

DeepSeek-R1-Evaluation

DeepSeek-R1は英語（MMLU、DROPなど）、コード（Codeforces、LiveCodeBenchなど）、数学（AIME、MATH-500など）、中国語（C-Evalなど）で高いスコアを達成
特に数学分野のAIME、MATH-500などで高いpass@1を記録
OpenAI-o1-mini、Claude、GPT-4などと比較しても、多くの項目で競争力のある性能を示した

Distilled Model Evaluation

蒸留モデルも数学（AIME、MATHなど）、コード（Codeforcesなど）のベンチマークで優れた結果を示した
DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70Bなどは高いpass@1とコード解答性能を示し、小型モデル活用の可能性を示唆

チャットWebサイト & APIプラットフォーム

chat.deepseek.comでDeepSeek-R1との対話を体験可能
OpenAI互換のAPIプラットフォーム platform.deepseek.com も提供

ローカル実行方法

DeepSeek-R1 Models

DeepSeek-V3リポジトリを参考に、128Kトークンの最大長設定など詳細を確認したうえで実行可能

DeepSeek-R1-Distill Models

Qwen、Llamaモデルと同じ方式で利用可能
例: vLLM、SGLangなどを使って高速にサービングできる
温度（temperature）は0.5〜0.7程度に設定することを推奨

ライセンス

DeepSeek-R1シリーズはMITライセンスの下で配布
ただし、QwenベースのモデルはApache 2.0、Llamaベースのモデルはllama3.xライセンスに従う点に注意が必要
商用利用の許可、修正・派生モデルの作成が可能など、柔軟なライセンス方針を備える

5件のコメント

xguru 2025-01-21

Deepseek - 中国AI競争を先導する静かな巨人
 Deepseek V3は過学習かどうかをテストするベンチマークで良くない性能を示した
 DeepSeek v3に関するノート - "本当にGPT-4oや3.5 Sonnetより優れているのか?"

crawler 2025-01-21

こうやってコメントに見やすくリンクを付けたり、本文を引用したりしている方もいるようですが、もしかしてコメントで使える記法がまとまっていたりしますか？
数日見ているうちに、だんだんサイトが気に入ってきて、コメントもしてみたくなりましたね

savvykang 2025-01-21

https://news.hada.io/guidelines

> Markdown対応
> 本文とコメントの両方で利用できます。
> 基本的にCommonMark規約に従います。
> 画像はサポートされていません。

crawler 2025-01-21

ありがとうございます。他のコメントで引用を使ってみようと思ったのですが、修正できないので無難に使わなかったんですけど、Markdownで合っていたんですね。
役立ててみます（笑）

GN⁺ 2025-01-21

Hacker Newsのコメント

Llama 3の量子化版を使って実験を進めている。Ollamaとllm-ollamaプラグインを使ってモデルを実行し、ログを記録している。モデルを読み込んだ後、uvxを使ってさまざまなプロンプトをテストできる。実験結果をブログにまとめている。
DeepSeek-R1-Zeroは、反復、可読性の問題、言語の混在といった問題を抱えていた。これを解決するためにDeepSeek-R1が導入された。OpenAI o1とQwQ-32B-Previewを使った実験では、QwQは反復ループに陥る傾向があった。DeepSeek-R1はこうした問題を解決している。MITライセンスで提供されているため、より多くの人が評価できるようになった。
"strawberry" の 'r' の数を尋ねる質問で、モデルが自分自身と議論しながら正解を見つける過程を見せている。この過程が面白いと言及している。
ChatGPT o1、DeepSeekのDeepThink、Gemini 2.0 Flash Thinking Experimentalを比較した結果、ChatGPT o1が最も優れており、DeepSeekが最も弱かった。DeepSeek-R1をテストしたところ、以前より改善した性能を示した。個人的なユースケースでは、LLMのほうがより有用だと感じた。
Llama 8BモデルがClaude 3.5 Sonnetより強力だというベンチマーク結果が出ている。小さなモデルが強力な性能を見せていることに驚きを示している。
1年前に設立された小さな会社がOpenAIと競争できる点は驚くべきことだと言及している。中国がAI分野で米国をリードしており、モデルをオープンソースで提供している点で、真の "Open AI" 企業だと評価している。
DS3に対して当初は期待があったが、function callingの問題、応答品質の低下、サポート不足などの問題を見つけた。しかしその結果、他のAPIのトラフィックが減り、レイテンシが改善した。
7bと8bバージョンの違いについて混乱を示している。OllamaにQwen 7Bバージョンをアップロードしたことを知らせている.

DeepSeek-R1モデル公開

モデル概要

モデルのダウンロード

DeepSeek-R1 Models

DeepSeek-R1-Distill Models

評価結果

DeepSeek-R1-Evaluation

Distilled Model Evaluation

チャットWebサイト & APIプラットフォーム

ローカル実行方法

DeepSeek-R1 Models

DeepSeek-R1-Distill Models

ライセンス

関連記事

5件のコメント

Hacker Newsのコメント