10 ポイント 投稿者 GN⁺ 2026-04-24 | 1件のコメント | WhatsAppで共有
  • 1Mトークンコンテキストをサポートする Mixture-of-Experts(MoE)ベースの大規模言語モデルで、Pro(1.6Tパラメータ)と Flash(284Bパラメータ)の2バージョンを公開
  • Compressed Sparse Attention(CSA) と Heavily Compressed Attention(HCA)を組み合わせたハイブリッドアテンションアーキテクチャにより、100万トークン基準で DeepSeek-V3.2 比、推論 FLOPs は 27%、KV キャッシュは 10% のみを使用
  • 32T 以上のトークンで事前学習した後、ドメイン別エキスパートを独立に学習し、その後 on-policy distillation によって単一モデルへ統合する 2 段階の事後学習パイプラインを適用
  • DeepSeek-V4-Pro-Max は LiveCodeBench 93.5、SWE Verified 80.6、Codeforces 3206 などのコーディングベンチマークで オープンソース最高性能 を達成
  • Non-Think、Think High、Think Max の3種類の推論モードをサポートし、日常作業から最高難度の推論まで用途別に選択可能

モデル概要とアーキテクチャ

  • DeepSeek-V4 シリーズは DeepSeek-V4-Pro(合計 1.6T パラメータ、49B アクティブ)と DeepSeek-V4-Flash(合計 284B パラメータ、13B アクティブ)の2モデルで構成
  • 両モデルとも 100万トークンのコンテキスト長 をサポート
  • 主なアーキテクチャおよび最適化アップグレードは3つ:
    • Hybrid Attention Architecture:CSA と HCA を組み合わせ、長文コンテキストの効率を大幅に改善。100万トークン基準で DeepSeek-V3.2 比、単一トークン推論 FLOPs は 27%、KV キャッシュは 10% に削減
    • Manifold-Constrained Hyper-Connections(mHC):従来の残差接続を強化し、レイヤー間の信号伝播の安定性とモデル表現力を同時に確保
    • Muon Optimizer:より高速な収束と高い学習安定性を提供

学習および事後学習パイプライン

  • 32T以上 の多様で高品質なトークンで事前学習を実施
  • 事後学習には 2段階パラダイム を適用:
    • 第1段階:SFT と RL(GRPO 活用)を通じてドメイン別エキスパートを独立して学習
    • 第2段階:on-policy distillation により、さまざまなドメインの専門性を単一モデルに統合
広告

推論モード

  • DeepSeek-V4-Pro と DeepSeek-V4-Flash はいずれも 3種類の推論モード をサポート:
    • Non-Think:高速で直感的な応答。日常業務や低リスクな意思決定に適する
    • Think High:意識的な論理分析。複雑な問題解決や計画立案に適する
    • Think Max:推論能力を限界まで拡張し、モデルの推論境界を探索するためのモード

ベンチマーク性能 — Base モデル

  • DeepSeek-V4-Pro-Base は大半のベンチマークで V3.2-Base と V4-Flash-Base を上回る:
    • MMLU:90.1(V3.2-Base 87.8、V4-Flash-Base 88.7)
    • MMLU-Pro:73.5(V3.2-Base 65.5)
    • Simple-QA Verified:55.2(V3.2-Base 28.3)
    • FACTS Parametric:62.6(V3.2-Base 27.1)
    • HumanEval:76.8(V3.2-Base 62.8)
    • LongBench-V2:51.5(V3.2-Base 40.2)
  • V4-Flash-Base は 13B のアクティブパラメータのみで、V3.2-Base(37B アクティブ)に近い、あるいは一部ベンチマークで上回る効率性を実証

ベンチマーク性能 — Instruct モデル(V4-Pro-Max vs フロンティアモデル)

  • コーディングベンチマーク で際立つ性能:
    • LiveCodeBench 93.5(Gemini-3.1-Pro High 91.7、Opus-4.6 Max 88.8)
    • Codeforces 3206(GPT-5.4 xHigh 3168、Gemini-3.1-Pro High 3052)
    • Apex Shortlist 90.2(Gemini-3.1-Pro High 89.1)
    広告
  • 知識および推論 領域:
    • SimpleQA-Verified 57.9、Chinese-SimpleQA 84.4 で大半のモデルを上回るが、Gemini-3.1-Pro High(75.6、85.9)には届かず
    • GPQA Diamond 90.1、MMLU-Pro 87.5
  • エージェントタスク
    • SWE Verified 80.6、MCPAtlas Public 73.6 などで上位圏
    • Terminal Bench 2.0(67.9)と HLE w/ tools(48.2)では一部クローズドソースモデルに及ばず
  • V4-Flash-Max はより大きな thinking budget を与えると Pro バージョンに近い推論性能を達成するが、純粋な知識タスクと複雑なエージェントワークフローでは、パラメータ規模の差によりやや劣る

モード別性能比較

  • すべてのベンチマークで V4-Pro Max が最高性能 を記録
  • Non-Think → Think High → Think Max と進むほど、性能が一貫して向上する傾向:
    • 例:GPQA Diamond で V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
    • 例:LiveCodeBench で V4-Flash Non-Think 55.2 → Max 91.6
    広告
  • V4-Flash Max は複数のベンチマークで V4-Pro High と同等、またはそれを上回る性能を示す

モデルのダウンロードと精度

  • 4つのモデルを提供:V4-Flash-Base、V4-Flash、V4-Pro-Base、V4-Pro
  • Base モデルは FP8 Mixed 精度、Instruct モデルは FP4 + FP8 Mixed 精度を使用
    • MoE エキスパートパラメータは FP4、その他の大半は FP8
  • HuggingFace と ModelScope からダウンロード可能

チャットテンプレートとローカル実行

  • Jinja フォーマットのチャットテンプレートは含まれず、代わりに encoding フォルダに OpenAI 互換フォーマットのメッセージエンコード/パース用 Python スクリプトとテストケース を提供
  • ローカルデプロイ時の推奨サンプリングパラメータ:temperature 1.0、top_p 1.0
  • Think Max モードでは最小 384Kトークン 以上のコンテキストウィンドウを推奨

ライセンス

  • モデル重みとリポジトリの両方に MIT License を適用

1件のコメント

 
GN⁺ 2026-04-24
Hacker Newsのコメント
  • v4 proのような巨大モデルで、100万トークン出力あたり4ドル程度というのを見ると、「最前線の研究所が推論に狂ったレベルで補助金を突っ込んで回している」という話が本当に正しいのかはよく分からない
    サブスクリプションでも十分採算が取れそうだし、API価格は言うまでもない感じがする
    入力は $1.74/M、出力は OpenRouter 基準で $3.48/M

    • 今は DeepSeekの推論カード不足 もあって価格が高い、という説明もある
      今年下半期に Ascend 950 コンピューティングカードが出れば Pro の価格は大きく下がると、プレスリリースで述べていたらしい
    • 運用費ベースでは黒字かもしれないが、現時点では 減価償却スケジュール まで含めた資本費ベースではまだそうではない可能性がある
      ただ、そのコスト見積もりも最近は想定より高くなる流れではある
    • 自分もだいたい同じ見方だ
      サブスクサービス はすでに利益が出ていて、補助金という話は結局、企業向け API でより高いマージンを取るためのロジックに見える
    • その指摘はその通りだが、その価格帯にまだ到達している 西側のプロバイダー はない
      中国は電力コストもより安い
  • 派手なプレスリリースより先に 開発者向けドキュメント が出たのは、妙にほっこりする

    • そう、まさに this is the way
    • これを オープンソース と呼ぶなら、学習データと学習スクリプトはどこにあるのかと思う
      修正されたのを見ると、上位コメントでは "open source" という表現は消えたようだ
  • もう OpenRouter に載っていた
    Pro は入力 $1.74/m、出力 $3.48/m、Flash は入力 $0.14/m、出力 $0.28/m

  • 中国から本当に オープンソース が出てくるのはうれしい
    裏の意図があるかもしれないのは分かるが、それでも心が動く

    • 米国企業は、モデルへのアクセス料金を払うのに過剰なレベルの本人確認を要求し、データを保存・分析・学習に使い、要請があれば当局に渡すこともあると公然と言っている
      中国の隠れた意図 は仮定にすぎないが、米国側は露骨に表に出ている
    • 中国の研究所がなぜモデルを公開するのかを理解するには、この記事が役に立つ
      http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
    • オープンウェイト なだけだ
  • 1.6T Pro base model が Hugging Face に上がっていた
    T級モデル という表記を見るのはここでは初めてだ

  • https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

    モデルが公開されていて、かなり印象的だ
    フロンティア級の性能 なのにコストはずっと低く、Opus 4.6 より良いように感じる

    • もうモデルを Opus と比較する必要があるのか疑問だ
      Opus の利用者はどうせ今後も最高だと信じ続けるし、使っていない人はそのコスト・ロックイン・制限を望まない
      自分のような非ユーザーは、今でも仕事を終わらせてくれる最も安くて速いモデルを使っていて、今は MiniMax M2.5 がその役割だ
      たまにより高価な最新モデルを使ってみても結果は似ていて、AI業界全体の誇張 が、進歩しているように見せているのはベンチマークだけなのではと思うこともある
    • Opus 4.7 と比べるとどうなのか気になる
      今週ずっと Anthropic Opus 4.7 ハッカソンに参加しながら 4.7 を集中的に使っていたが、トークン消費は 4.6 よりずっと多いものの、かなり印象的だった
    • 本当に Opus 4.6より良い のか、それとも単にベンチマーク最適化がうまいだけなのか気になる
      エージェントハーネスで実際のコーディングも試したのか知りたい
      コーディング能力が Claude Code + Opus 4.6 より上なら、すぐに乗り換えるつもりだ
    • また始まったなという感じだ
      毎日のように Opus 4.6より良い というリリース投稿が出るが、当の deepseek 自身も thinking を含めた基準で opus より上だとは主張していない
      Dsv3 はベンチマークだけを盛るタイプのモデルではなく、ベンチ外の課題でもかなり安定していて、SoTA には届かなくても十分良かった
      今回のモデルも似たような感じに見える
      最高性能のすぐ下 のレベルだが差は大きくなく、価格はずっと安い
      大きいモデルは今のところ ds が直接 $1.74 in / $3.48 out / $0.14 cache で提供していて、価値に対して非常に安い
      小さいモデルは $0.14 in / $0.28 out / $0.028 cache で、事実上 安すぎて気にしなくていいレベル だし、自宅で動かす現実的な候補になり得る
      性能さえ十分なら haiku や gemini-flash 系と十分競争できそうだ
    • 公開されているベンチマークの数値でざっくり計算すると、両方にスコアがある 20 指標で合計 20.1パーセントポイント差 がある
      平均改善幅はおよそ 2%程度 で、これがすごいのか地味なのか正直微妙だ
      Claude 4.6 は長文脈の質問応答、特に CorpusQA の corpuses と MRCR のマルチラウンド対話でほぼ 10pp 良かった
      一方で DSv4 は IMOAnswerBench で実に 14pp、SimpleQA-Verified で 12pp 高かった
  • 重みはここから入手できる
    https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

  • この分野にはかなり深く関心があり、実際に多くが懸かってもいるのだが、正直もう全部を追いかけようとして 燃え尽き てきた
    AI の進歩に追いつくには、もう AI が AI の進歩を要約してくれないと無理な時点 をとっくに過ぎている感じがする

    • 追いかけようとしないほうがいい
      ニュースと同じで、本当に知る必要がある時が来れば、誰かが先に教えてくれるものだ
    • 主要プレイヤーはほとんど変わらない
      スポーツを追うように見ればよく、首位が入れ替わること 自体を受け入れれば、そこまできつくはない
    • 体感では GPT-4以降 はずっと似たり寄ったりだ
      新モデルが出てもベンチマークがいくつか良くなったという話ばかりで、実際に使った主観的な体験はほとんど変わらない
      それ以降、本当に驚くようなものはあまりなく、今は熱心な層だけが関心を持つ方向で停滞している感じもある
  • High Flyer がこれを作るために Anthropicを露骨に真似したこと 自体より、GAB がその中に xz級のイースターエッグ を何十個も仕込む時間を十分に稼がせたことのほうが気に障る

  • さっき OpenRouter 経由で Pi Coding agent で試してみたが、read と write ツールを まともに使えないことがよくある
    かなりがっかりで、「直接呼び出しを使わず、必ず提供されたツールを使え」のようなプロンプト以外に、もっと良い解決策があるのか気になる

    • 出たばかりなので、少し待ってみるのがよさそうだ
      おそらく Piとの事前テスト はまだ十分にできていない可能性が高い