- 1Mトークンコンテキストをサポートする Mixture-of-Experts(MoE)ベースの大規模言語モデルで、Pro(1.6Tパラメータ)と Flash(284Bパラメータ)の2バージョンを公開
- Compressed Sparse Attention(CSA) と Heavily Compressed Attention(HCA)を組み合わせたハイブリッドアテンションアーキテクチャにより、100万トークン基準で DeepSeek-V3.2 比、推論 FLOPs は 27%、KV キャッシュは 10% のみを使用
- 32T 以上のトークンで事前学習した後、ドメイン別エキスパートを独立に学習し、その後 on-policy distillation によって単一モデルへ統合する 2 段階の事後学習パイプラインを適用
- DeepSeek-V4-Pro-Max は LiveCodeBench 93.5、SWE Verified 80.6、Codeforces 3206 などのコーディングベンチマークで オープンソース最高性能 を達成
- Non-Think、Think High、Think Max の3種類の推論モードをサポートし、日常作業から最高難度の推論まで用途別に選択可能
モデル概要とアーキテクチャ
- DeepSeek-V4 シリーズは DeepSeek-V4-Pro(合計 1.6T パラメータ、49B アクティブ)と DeepSeek-V4-Flash(合計 284B パラメータ、13B アクティブ)の2モデルで構成
- 両モデルとも 100万トークンのコンテキスト長 をサポート
- 主なアーキテクチャおよび最適化アップグレードは3つ:
- Hybrid Attention Architecture:CSA と HCA を組み合わせ、長文コンテキストの効率を大幅に改善。100万トークン基準で DeepSeek-V3.2 比、単一トークン推論 FLOPs は 27%、KV キャッシュは 10% に削減
- Manifold-Constrained Hyper-Connections(mHC):従来の残差接続を強化し、レイヤー間の信号伝播の安定性とモデル表現力を同時に確保
- Muon Optimizer:より高速な収束と高い学習安定性を提供
学習および事後学習パイプライン
- 32T以上 の多様で高品質なトークンで事前学習を実施
- 事後学習には 2段階パラダイム を適用:
- 第1段階:SFT と RL(GRPO 活用)を通じてドメイン別エキスパートを独立して学習
- 第2段階:on-policy distillation により、さまざまなドメインの専門性を単一モデルに統合
推論モード
- DeepSeek-V4-Pro と DeepSeek-V4-Flash はいずれも 3種類の推論モード をサポート:
- Non-Think:高速で直感的な応答。日常業務や低リスクな意思決定に適する
- Think High:意識的な論理分析。複雑な問題解決や計画立案に適する
- Think Max:推論能力を限界まで拡張し、モデルの推論境界を探索するためのモード
ベンチマーク性能 — Base モデル
- DeepSeek-V4-Pro-Base は大半のベンチマークで V3.2-Base と V4-Flash-Base を上回る:
- MMLU:90.1(V3.2-Base 87.8、V4-Flash-Base 88.7)
- MMLU-Pro:73.5(V3.2-Base 65.5)
- Simple-QA Verified:55.2(V3.2-Base 28.3)
- FACTS Parametric:62.6(V3.2-Base 27.1)
- HumanEval:76.8(V3.2-Base 62.8)
- LongBench-V2:51.5(V3.2-Base 40.2)
- V4-Flash-Base は 13B のアクティブパラメータのみで、V3.2-Base(37B アクティブ)に近い、あるいは一部ベンチマークで上回る効率性を実証
ベンチマーク性能 — Instruct モデル(V4-Pro-Max vs フロンティアモデル)
- コーディングベンチマーク で際立つ性能:
- LiveCodeBench 93.5(Gemini-3.1-Pro High 91.7、Opus-4.6 Max 88.8)
- Codeforces 3206(GPT-5.4 xHigh 3168、Gemini-3.1-Pro High 3052)
- Apex Shortlist 90.2(Gemini-3.1-Pro High 89.1)
- 知識および推論 領域:
- SimpleQA-Verified 57.9、Chinese-SimpleQA 84.4 で大半のモデルを上回るが、Gemini-3.1-Pro High(75.6、85.9)には届かず
- GPQA Diamond 90.1、MMLU-Pro 87.5
- エージェントタスク:
- SWE Verified 80.6、MCPAtlas Public 73.6 などで上位圏
- Terminal Bench 2.0(67.9)と HLE w/ tools(48.2)では一部クローズドソースモデルに及ばず
- V4-Flash-Max はより大きな thinking budget を与えると Pro バージョンに近い推論性能を達成するが、純粋な知識タスクと複雑なエージェントワークフローでは、パラメータ規模の差によりやや劣る
モード別性能比較
- すべてのベンチマークで V4-Pro Max が最高性能 を記録
- Non-Think → Think High → Think Max と進むほど、性能が一貫して向上する傾向:
- 例:GPQA Diamond で V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
- 例:LiveCodeBench で V4-Flash Non-Think 55.2 → Max 91.6
- V4-Flash Max は複数のベンチマークで V4-Pro High と同等、またはそれを上回る性能を示す
モデルのダウンロードと精度
- 4つのモデルを提供:V4-Flash-Base、V4-Flash、V4-Pro-Base、V4-Pro
- Base モデルは FP8 Mixed 精度、Instruct モデルは FP4 + FP8 Mixed 精度を使用
- MoE エキスパートパラメータは FP4、その他の大半は FP8
- HuggingFace と ModelScope からダウンロード可能
チャットテンプレートとローカル実行
- Jinja フォーマットのチャットテンプレートは含まれず、代わりに
encoding フォルダに OpenAI 互換フォーマットのメッセージエンコード/パース用 Python スクリプトとテストケース を提供
- ローカルデプロイ時の推奨サンプリングパラメータ:temperature 1.0、top_p 1.0
- Think Max モードでは最小 384Kトークン 以上のコンテキストウィンドウを推奨
ライセンス
- モデル重みとリポジトリの両方に MIT License を適用
1件のコメント
Hacker Newsのコメント
v4 proのような巨大モデルで、100万トークン出力あたり4ドル程度というのを見ると、「最前線の研究所が推論に狂ったレベルで補助金を突っ込んで回している」という話が本当に正しいのかはよく分からない
サブスクリプションでも十分採算が取れそうだし、API価格は言うまでもない感じがする
入力は $1.74/M、出力は OpenRouter 基準で $3.48/M
今年下半期に Ascend 950 コンピューティングカードが出れば Pro の価格は大きく下がると、プレスリリースで述べていたらしい
ただ、そのコスト見積もりも最近は想定より高くなる流れではある
サブスクサービス はすでに利益が出ていて、補助金という話は結局、企業向け API でより高いマージンを取るためのロジックに見える
中国は電力コストもより安い
派手なプレスリリースより先に 開発者向けドキュメント が出たのは、妙にほっこりする
修正されたのを見ると、上位コメントでは "open source" という表現は消えたようだ
もう OpenRouter に載っていた
Pro は入力 $1.74/m、出力 $3.48/m、Flash は入力 $0.14/m、出力 $0.28/m
こちらでは Api Error が出る
他のモデルは全部正常に動く
https://openrouter.ai/deepseek/deepseek-v4-pro
https://openrouter.ai/deepseek/deepseek-v4-flash
中国から本当に オープンソース が出てくるのはうれしい
裏の意図があるかもしれないのは分かるが、それでも心が動く
中国の隠れた意図 は仮定にすぎないが、米国側は露骨に表に出ている
http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
1.6T Pro base model が Hugging Face に上がっていた
T級モデル という表記を見るのはここでは初めてだ
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
モデルが公開されていて、かなり印象的だ
フロンティア級の性能 なのにコストはずっと低く、Opus 4.6 より良いように感じる
Opus の利用者はどうせ今後も最高だと信じ続けるし、使っていない人はそのコスト・ロックイン・制限を望まない
自分のような非ユーザーは、今でも仕事を終わらせてくれる最も安くて速いモデルを使っていて、今は MiniMax M2.5 がその役割だ
たまにより高価な最新モデルを使ってみても結果は似ていて、AI業界全体の誇張 が、進歩しているように見せているのはベンチマークだけなのではと思うこともある
今週ずっと Anthropic Opus 4.7 ハッカソンに参加しながら 4.7 を集中的に使っていたが、トークン消費は 4.6 よりずっと多いものの、かなり印象的だった
エージェントハーネスで実際のコーディングも試したのか知りたい
コーディング能力が Claude Code + Opus 4.6 より上なら、すぐに乗り換えるつもりだ
毎日のように Opus 4.6より良い というリリース投稿が出るが、当の deepseek 自身も thinking を含めた基準で opus より上だとは主張していない
Dsv3 はベンチマークだけを盛るタイプのモデルではなく、ベンチ外の課題でもかなり安定していて、SoTA には届かなくても十分良かった
今回のモデルも似たような感じに見える
最高性能のすぐ下 のレベルだが差は大きくなく、価格はずっと安い
大きいモデルは今のところ ds が直接 $1.74 in / $3.48 out / $0.14 cache で提供していて、価値に対して非常に安い
小さいモデルは $0.14 in / $0.28 out / $0.028 cache で、事実上 安すぎて気にしなくていいレベル だし、自宅で動かす現実的な候補になり得る
性能さえ十分なら haiku や gemini-flash 系と十分競争できそうだ
平均改善幅はおよそ 2%程度 で、これがすごいのか地味なのか正直微妙だ
Claude 4.6 は長文脈の質問応答、特に CorpusQA の corpuses と MRCR のマルチラウンド対話でほぼ 10pp 良かった
一方で DSv4 は IMOAnswerBench で実に 14pp、SimpleQA-Verified で 12pp 高かった
重みはここから入手できる
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
新しい base モデル まで出ていて本当にうれしい
この分野にはかなり深く関心があり、実際に多くが懸かってもいるのだが、正直もう全部を追いかけようとして 燃え尽き てきた
AI の進歩に追いつくには、もう AI が AI の進歩を要約してくれないと無理な時点 をとっくに過ぎている感じがする
ニュースと同じで、本当に知る必要がある時が来れば、誰かが先に教えてくれるものだ
スポーツを追うように見ればよく、首位が入れ替わること 自体を受け入れれば、そこまできつくはない
新モデルが出てもベンチマークがいくつか良くなったという話ばかりで、実際に使った主観的な体験はほとんど変わらない
それ以降、本当に驚くようなものはあまりなく、今は熱心な層だけが関心を持つ方向で停滞している感じもある
High Flyer がこれを作るために Anthropicを露骨に真似したこと 自体より、GAB がその中に xz級のイースターエッグ を何十個も仕込む時間を十分に稼がせたことのほうが気に障る
さっき OpenRouter 経由で Pi Coding agent で試してみたが、read と write ツールを まともに使えないことがよくある
かなりがっかりで、「直接呼び出しを使わず、必ず提供されたツールを使え」のようなプロンプト以外に、もっと良い解決策があるのか気になる
おそらく Piとの事前テスト はまだ十分にできていない可能性が高い