DeepSeek V4 – フロンティアにほぼ迫り、価格ははるかに安価

(simonwillison.net)

7 ポイント投稿者 GN⁺ 2026-05-03 | 2件のコメント | WhatsAppで共有

DeepSeekがV4シリーズ最初のモデルとして DeepSeek-V4-Pro と DeepSeek-V4-Flash のプレビューモデルを公開。両モデルとも100万トークンのコンテキストをサポートするMixture of Expertsモデルで、MITライセンスで提供される
DeepSeek-V4-Pro は総計1.6Tパラメータ、アクティブ49Bパラメータを備えたモデルで、Kimi K2.6、GLM-5.1、DeepSeek V3.2を上回る最大のオープンウェイトモデル
DeepSeek V4の最大の差別化要因は価格で、Flashは入力100万トークンあたり$0.14・出力$0.28、Proは入力$1.74・出力$3.48と、比較対象の小型・大型モデルより低価格に設定されている
この低価格は 長コンテキストの効率化 に支えられており、100万トークンコンテキストでProはDeepSeek-V3.2比で単一トークンFLOPs 27%・KVキャッシュ10%、FlashはFLOPs 10%・KVキャッシュ7%まで削減されている
独自ベンチマークではDeepSeek-V4-Proはフロンティアモデルと競争可能だが、GPT-5.4とGemini-3.1-Proにはやや及ばず、最先端のフロンティアモデルより約 3〜6か月 遅れた開発軌道を示している

モデル公開と基本仕様

DeepSeekは2025年12月の V3.2とV3.2 Speciale に続き、V4シリーズ最初のモデルとして DeepSeek-V4-Pro と DeepSeek-V4-Flash の プレビューモデル 2種を公開
両モデルとも 100万トークンコンテキスト をサポートするMixture of Expertsモデルで、標準MITライセンスを採用
DeepSeek-V4-Proは総計 1.6Tパラメータ、アクティブ49Bパラメータを備え、DeepSeek-V4-Flashは総計284Bパラメータ、アクティブ13Bパラメータを備える
DeepSeek-V4-ProはKimi K2.6の1.1T、GLM-5.1の754B、DeepSeek V3.2の685Bを上回り、新たな最大のオープンウェイトモデルとみられる
Hugging Face上でのモデルサイズはProが 865GB、Flashが 160GB で、軽く量子化したFlashは128GB M5 MacBook Proで動作できる可能性がある
Proモデルも必要なアクティブエキスパートのみをディスクからストリーミングできれば、同じマシンで動作する可能性がある
OpenRouterによる簡単なテスト
- OpenRouter と llm-openrouter を使い、次のコマンドでモデルを呼び出している
- ```
llm install llm-openrouter  
llm openrouter refresh  
llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle'  
```
- 生成結果として DeepSeek-V4-FlashのペリカンSVG と DeepSeek-V4-ProのペリカンSVG が公開されている
- 比較対象として 2025年12月のDeepSeek V3.2、2025年8月のV3.1、2025年3月のV3-0324 の同一プロンプト結果も併せて示されている

価格、効率、性能の位置づけ

DeepSeek V4で最も際立つ要素は価格で、DeepSeek価格ページによればFlashは入力100万トークンあたり$0.14、出力100万トークンあたり$0.28
Proは入力100万トークンあたり $1.74、出力100万トークンあたり $3.48 に設定されている
比較表ではDeepSeek V4 FlashはGPT-5.4 Nanoの入力$0.20・出力$1.25、Gemini 3.1 Flash-Liteの入力$0.25・出力$1.50より安く、小型モデルの中で最安
DeepSeek V4 ProはGemini 3.1 Proの入力$2・出力$12、GPT-5.4の入力$2.50・出力$15、Claude Sonnet 4.6の入力$3・出力$15、Claude Opus 4.7の入力$5・出力$25、GPT-5.5の入力$5・出力$30より安く、大型フロンティアモデルの中で最安
効率化が低価格を支える
- DeepSeek論文では、今回のリリースで長コンテキストプロンプトの効率に大きく注力したと説明している
- 100万トークンコンテキストでDeepSeek-V4-ProはDeepSeek-V3.2比で単一トークンFLOPsが 27%、KVキャッシュサイズが 10% にとどまる
- 同条件でDeepSeek-V4-FlashはDeepSeek-V3.2比で単一トークンFLOPsが 10%、KVキャッシュサイズが 7% まで低減されている
ベンチマークではフロンティアに迫るが最上位には及ばず
- DeepSeekの自己報告ベンチマークは、Proモデルが他のフロンティアモデルと十分競争可能だという結果を示している
- 論文によれば、推論トークン拡張を適用したDeepSeek-V4-Pro-Maxは標準的な推論ベンチマークでGPT-5.2とGemini-3.0-Proを上回る性能を示した
- ただしGPT-5.4とGemini-3.1-Proにはやや及ばず、最先端のフロンティアモデルより約 3〜6か月 遅れた開発軌道を示している
- huggingface.co/unsloth/models でUnslothの量子化版公開が期待されており、Flashモデルがローカルマシンでどこまでうまく動くかが引き続き注目点となっている

2件のコメント

emptybynature 2026-05-09

とにかく本当に安いのは良いんだけど、問題は遅すぎること…。codexなら5分で済むものを、こっちは20分考える。なので実装用というよりコードレビュー用として使っているけど、コードレビューはかなり上手いので満足している

GN⁺ 2026-05-03

Hacker Newsの反応

自分にとって最大の差別化要因は、DeepSeekは単に頼んだことをやってくれること。最近リバースエンジニアリング用途でGPTとClaudeを両方使ってみたが、どちらも拒否し、OpenAIのアカウントでは警告まで受けた
- 残念ながらハルシネーションの水準がとんでもなく高くて、大規模言語モデルの最悪な面が出ている
  Deepseek v4 pro 94%
  Deepseek v4 flash - 96%
  https://artificialanalysis.ai/evaluations/omniscience?models...
- 自分の経験では、IDA ProとGLM 5.1を組み合わせたときが素晴らしく、DeepSeek v4 proが僅差で2位、Kimiはただ拒否するだけだった。Claudeはヒーロー／救世主モードのような方向に持っていってから徐々にレッドチーム寄りに振らないとリバースエンジニアリングができないが、すぐに破綻する
- 会社にenterprise版のCursorアカウントがあるので、主要モデルは全部試せる。もちろんソースのある自社コードでComposer 2を使って問題を調べていたのだが、ライセンスチェックを回避するデバッグフラグを有効にしてくれと頼んでもやってくれなかった
  本当に腹が立ったし、昔のSpongeBobのPatrickミームみたいだった。なぜモデルを法執行官にしたがるのかわからない。違法なことは今でも違法だし、犯罪を扱う専門家もいる。Googleが真実と正義の仲裁者になる必要はない。法執行機関でさえ責任追及はすでに難しいが、少なくとも彼らは私たちのために働いている
- 「OpenAIのアカウントでは警告まで受けた」という部分は、ソフトウェアがユーザーに結果をちらつかせて脅すということで、完全に異様でディストピア的だ
  開発者のみんな、私たちはどんな世界を作ってしまったんだ？これは狂っている。ハンマーが「ネジには使うな、釘だけに使え。もう一度やったら自爆するぞ」と言うのを想像すればいい。こんなソフトウェアをもう作るのはやめてほしい
- 「OpenAIのアカウントでは警告まで受けた」は、かなりしばしば怖く感じる。フォロワーもいない普通の人には実質的な救済手段もなく、基本的なツールから締め出される可能性がある
  OpenAIが20社を買収したあと、昔一度あいまいな線を越えたという理由だけでFigmaやNextのようなものが使えなくなる、と想像してみてほしい。OpenAIだけでなくエコシステム全体があまりにも読みにくい
  GeminiにCatch-22のある引用について尋ねたら、暴力的でも性的でもない内容なのに、ストリーミングの途中で何度も止まって答えられないと言われた。本にはそういう内容もあるが、その理由だけでworkspaceアカウント全体が減点されるかもしれないと思ってしまう
  理想的には未来はローカルであるべきだとわかっているが、今後数年の実コストや電力消費を考えると、それが大半の人にどれほど現実的なのかわからない。そのエコシステムにいるならM*プロセッサあたりが例外だろう
DeepSeek v4 Proは、性格面ではClaude Opus 4.6のように感じられ、コスト面では印象的だった
かなり大きいTypeScriptコードベースで、単一エンドポイントだけに集中してAPI、DTO、サービス、データベースモデルを階層ごとに深く調べ、関連する型を完全に把握しつつ暫定型が生じないようにしてくれと頼んだ
導入される型と、そのうちどれが返されるのかなどをとても短く要点だけでまとめてくれ、その後で全体を単純化してほしいと頼んだ
どちらのプロンプトでもかなり多くのファイルを見たはずだが、Pro版の合計コストは**$0.09**だった。Claude Opusなら、値上げ前の経験ベースでもこの2つのプロンプトだけで$9〜$13くらいは簡単に燃やしただろうし、得られるものも大差なかったはずだ
ちなみにOpenRouterではなくDeepSeek APIを直接使った。OpenRouter自体がDeepSeek側で速度制限を受けていたからだ
- 自分も同じ体験をしている。「このモジュール全体を見て、自分の好みのスタイルガイドに厳密かつ正確に合わせてくれ」みたいな作業に最前線モデルへ何ドルも払うのは惜しかった。DeepSeek Flashを、雑で不要だったり非常に投機的だったりする作業にコストを気にせず投げられるのが良い
- 非効率のかなりの部分は、モデルが無作為にあちこち突いてgrepしまくることに由来していて、これはハーネスの問題だと思う
  そこでtree-sitterでコードをグラフとしてパースし、モデルが「この関数につながっている関数は全部何？」のような質問をできるように、PrologベースのMCPを作った。特定のエンドポイントが何をするのかを見るために、呼び出しの下位グラフ全体を些細で予測可能な形で追跡できる
  https://github.com/yogthos/chiasmus
- 「大した利益もなく$9〜$13くらい燃やしただろう」というのは、9セントのDeepSeek v4 Proと比べて利得が大きくないという意味なのか、それとも両方とも大した利得がなかったという意味なのか気になる
- 75%割引請求中という点を考慮しても、なおかなり安い
- どう使ったのか気になる。OpenRouterを使ったのか、それともプロバイダーAPIを直接使ったのか？
関連して、128GB MacBookでDeepSeek v4 Flashを動かすライブデモがある。イタリア語の動画で英語字幕付き
https://www.youtube.com/watch?v=todMmp6AGCE
vscode copilotにつないでflashとproの両方を使ってみた。小さな概念実証にはflashで十分で、かなり速く、本当に安かった
数回止まったが、レイテンシの問題かもしれないし、それでも結果は良かった。proは重い作業や計画立案などに使い、見事にこなした
小さな概念実証1つに約10セントかかり、プロンプトどおりに正確に動いた。自分にとっては今月末にGitHub Copilotを解約した後の本物の代替だ
コストは最前線モデルより低いとはいえ、DS4 ProとK2.6が見た目ほど安くなくなる要因が2つある
DS4 Proは公式APIに割引が入っているが、これが議論で見落とされたり混同されたりしがちだ。Simonは比較で定価を使っていたので、ここでは問題ない
もう1つの問題は、DS4 ProとK2.6は最前線モデルより推論トークンをかなり多く使うことがよくある点だ。自分のテストでは、病的な一部ケースでトークンを使いすぎて、リクエストコストが最前線モデルと同じになりうることがあった。公平に言えば、DSとKimiをサードパーティプロバイダー経由で使っているので、そちらの設定の問題かもしれない
ただArtificial Analysisのモデルページを見ると、知能ベンチマークでDSv4 Proは190Mトークン、K2.6は170Mトークンを使っている一方で、GPT 5.5 highは45Mしか使っていない
「Intelligence vs. Cost to Run Artificial Analysis Intelligence Index」、UIでは「Intelligence vs Cost」を見るのを勧める。オープンソースモデルのほうが依然として安いが、トークン単価だけを見たときに期待するほどではない
[0] https://artificialanalysis.ai/models/deepseek-v4-pro
[1] https://artificialanalysis.ai/models/kimi-k2-6
[2] https://artificialanalysis.ai/models/gpt-5-5-high
- これはまったくの誤りで、DS4は本当に安い。まずリリース論文を読むことを勧める
  https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
  長いコンテキスト効率とアテンションを改善するかなり新しい方法であるHCAとmCHを導入した。v3.2比で推論には27%のFLOPしか、KVキャッシュには10%しか必要ない。同じ計算資源で3倍以上サービングでき、以前のKVキャッシュの30%だけで済むということだ
  しかも今回のリリースはPREVIEWだ。DeepSeekは本物の公開研究所で、各リリースごとにかなり多くを生み出すだけでなく公開・共有もしている。自分はこれをローカルで動かしている
  どれほど「安い」かと言うと、v3.2では256kコンテキストでGPUメモリが足りずシステムメモリにあふれていたが、それでも毎秒7千トークン程度で満足していた。今回は100万トークンのフルコンテキストをGPUメモリ内に100%収め、2倍以上速く動かしつつ結果も良くなっている
  これは本当に安い。MoonshotはGPUが足りないことを明確にしていたし、そのせいだ。アメリカのようにGPU容量があり、こちらのようにモデルを支援していたなら、無料でばらまいていただろう
- そういうことが起こりうるのは確かだが、自分の経験ではなかった。丸一日かけてかなり大きなリファクタリング、何度もの往復対話、数千行のコード変更、レビュー、調査、複数のサブエージェントの並列作業まで全部やって、総コストは$0.95だった
  以前Opus 4.6でこれを試したときは、最初のプロンプトが返ってくる前に自分で設定した$10予算を使い切っていた
  たとえ大幅割引価格だとしても、完全な解決策にかかったのは一桁ドルだっただろうし、Opusは正確に何も得られないまま二桁ドルかかったはずだ
- Artificial Analysisによれば、Grok 4.3はDS4より速く、賢く、安く、トークン使用量も少ない。なのになぜGrokの話はしないのだろう？
  1. https://artificialanalysis.ai/models/grok-4-3
V4は我々の多言語ベンチマークでV3.2より明らかに一段上だった
ただし注意点が2つある。OpenRouter経由で推論すると速度（TPS）が非常に遅く、時々不安定な問題も多かった。今確認しても利用可能な全プロバイダーで10〜30 TPSなので、DeepSeekのようによく考えるモデルとしては高くない
公式DeepSeek APIは有料ユーザーに対してもデータプライバシーを保証していない
Azure AI Foundry経由で使えば、どちらも問題にならないかもしれない。後者については自分の知る限りそうだが、まだ試してはいない
いずれにせよ、最新の最高水準モデルとある程度競争できるオープンウェイトモデルがさらに出てくるのは歓迎だ
DeepSeek公式APIは、同じコードベースで長いセッションとして使い続けるとキャッシュヒット率が99%以上になるので、最前線モデルよりずっと安い。claude codeで200Mトークンのセッション例がある
- ばかげた質問かもしれないが、新しいセッションでキャッシュに合う正しいプレフィックスを保証するには、ファイルを同じ順序で読まないといけないのか？
人々が、特にモデル開発元のAPIを直接使うときに、こうしたモデルが自分たちのデータで公開学習するという点をまったく気にしていないのは驚きだ
「GitHubが今やみんなのコードをモデル学習に自動オプトインする」みたいな件には、もっともな怒りのコメントが何百も付くのに、OpenRouter経由で中国系モデルを使う話になると、こうした点はほとんど出てこなくなる。「別の人たちだから」と説明することもできるが、差があまりに極端で、それだけで説明しきれるとは思えない
- オープンウェイトモデルの良いところは、元のモデル作者にデータを送らない代替プロバイダーを自由に使えることだ。たとえばOpenRouterにはDeepSeek V4 Pro向けの代替プロバイダーが6つ見える
- 個人的には、モデルを公開して閉じない限り、彼らを助けるのは構わない。そしてプロバイダーが学習に使わないと言う設定も信用していない
- ほとんどのオープンウェイトモデルでは、データ保持なし・学習なしを提供するプロバイダーを使える。例としてOpenRouterやOpenCode Go/Zenを見ればよい
  これはオープンウェイトの大きな利点の1つだ。中国もアメリカも自分のデータを取らない
- 彼らが無料で配っていて、APIも非常に良心的な価格で提供しているからだ。理解しづらい話ではない。Robin Hoodが私たちのデータ税を盗んで返してくれているような感覚がある
- 自分のオープンソースコードで学習されるのは構わない。コードの出来はかなり微妙だが、それは本質ではないし、どうせサービスも無料で提供されているからだ。でもenterprise料金を払っているのに学習に使われるなら本当に腹が立つだろう。大多数のプログラマーもそう考えると思う
補助金サーカスが終わって、皆が純粋な従量課金に移ったとしても、月**$200の予算**がない普通の人たちにとって完全に排他的にはならない、という希望が持てる
- 今日と比べて価格性能比が突然跳ね上がるような大規模な裏切りは起きないだろうと楽観している理由が2つある
  1つは、より小さなモデルにより多くの知能を詰め込む方法を私たちが見つけ続けているので、同じハードウェア仕様でも時間がたつほどより高いモデル能力を提供できるという点だ
  もう1つは、ハードウェアが改善し続け、供給が需要に追いつくことで、1ドルで買えるハードウェア仕様も時間とともに良くなるという点だ
  いつか、今の「プロバイダーAPI経由でAIにアクセスする」というモデルを、昔の「皆が会社のメインフレームに接続していた」時代を振り返るような感覚で見るようになってほしい
- 落ち着くころには、個人向けの対話的利用が**$200未満**では不可能になっていても驚かない。こうしたもののサービングコストを自分でモデル化してみても、公表されている報告とあまり整合しない。より悲観的なケースでさえそうだ
ここ数日v4 proを使ってみたが、品質面では概ねOpenAI 5.4やOpus 4.6と同程度に見える。4.7は使っていない
はっきり言うと、自分は最先端の仕事をしているわけではない。主にフロントエンド開発に使っていて、その分野があまり得意ではないので、もっともらしいプロトタイプが必要なだけだった
自分の用途には十分すぎるモデルで、価格も妥当だ。ただ、ローカルで動かせるほど小さいオープンモデルが出るのを本当に待っている。他人のマシンに依存し、その過程で自分のデータが全部流出していくのが嫌だ
- Tinfoilで推論を使えば、クラウドでモデルを使いながらローカル実行に近いプライバシーを得られる: https://tinfoil.sh/inference
  参考までに、自分は共同創業者だ。この方式ではセキュアエンクレーブ内でモデルを動かし、エンクレーブ内で動くオープンソースコードがランタイム証明と一致しているかを検証する。NVIDIA confidential computingを使っている
  ドキュメントには検証プロセスが説明されている: https://docs.tinfoil.sh/verification/verification-in-tinfoil
- 使ってみた体験を共有してくれてありがとう。自分も試そうとしているところだ。推論にはどのプロバイダーを使っている？ Opencodeなのか、DeepSeek APIなのか気になる

DeepSeek V4 – フロンティアにほぼ迫り、価格ははるかに安価

モデル公開と基本仕様

OpenRouterによる簡単なテスト

価格、効率、性能の位置づけ

効率化が低価格を支える

ベンチマークではフロンティアに迫るが最上位には及ばず

関連記事

2件のコメント

Hacker Newsの反応