DeepSeek V4 – フロンティアにほぼ迫り、価格ははるかに安価
(simonwillison.net)- DeepSeekがV4シリーズ最初のモデルとして DeepSeek-V4-Pro と DeepSeek-V4-Flash のプレビューモデルを公開。両モデルとも100万トークンのコンテキストをサポートするMixture of Expertsモデルで、MITライセンスで提供される
- DeepSeek-V4-Pro は総計1.6Tパラメータ、アクティブ49Bパラメータを備えたモデルで、Kimi K2.6、GLM-5.1、DeepSeek V3.2を上回る最大のオープンウェイトモデル
- DeepSeek V4の最大の差別化要因は 価格 で、Flashは入力100万トークンあたり$0.14・出力$0.28、Proは入力$1.74・出力$3.48と、比較対象の小型・大型モデルより低価格に設定されている
- この低価格は 長コンテキストの効率化 に支えられており、100万トークンコンテキストでProはDeepSeek-V3.2比で単一トークンFLOPs 27%・KVキャッシュ10%、FlashはFLOPs 10%・KVキャッシュ7%まで削減されている
- 独自ベンチマークではDeepSeek-V4-Proはフロンティアモデルと競争可能だが、GPT-5.4とGemini-3.1-Proにはやや及ばず、最先端のフロンティアモデルより約 3〜6か月 遅れた開発軌道を示している
モデル公開と基本仕様
- DeepSeekは2025年12月の V3.2とV3.2 Speciale に続き、V4シリーズ最初のモデルとして DeepSeek-V4-Pro と DeepSeek-V4-Flash の プレビューモデル 2種を公開
- 両モデルとも 100万トークンコンテキスト をサポートするMixture of Expertsモデルで、標準MITライセンスを採用
- DeepSeek-V4-Proは総計 1.6Tパラメータ、アクティブ49Bパラメータを備え、DeepSeek-V4-Flashは総計284Bパラメータ、アクティブ13Bパラメータを備える
- DeepSeek-V4-ProはKimi K2.6の1.1T、GLM-5.1の754B、DeepSeek V3.2の685Bを上回り、新たな最大のオープンウェイトモデルとみられる
- Hugging Face上でのモデルサイズはProが 865GB、Flashが 160GB で、軽く量子化したFlashは128GB M5 MacBook Proで動作できる可能性がある
- Proモデルも必要なアクティブエキスパートのみをディスクからストリーミングできれば、同じマシンで動作する可能性がある
-
OpenRouterによる簡単なテスト
- OpenRouter と llm-openrouter を使い、次のコマンドでモデルを呼び出している
-
llm install llm-openrouter llm openrouter refresh llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle' - 生成結果として DeepSeek-V4-FlashのペリカンSVG と DeepSeek-V4-ProのペリカンSVG が公開されている
- 比較対象として 2025年12月のDeepSeek V3.2、2025年8月のV3.1、2025年3月のV3-0324 の同一プロンプト結果も併せて示されている
価格、効率、性能の位置づけ
- DeepSeek V4で最も際立つ要素は 価格 で、DeepSeek価格ページ によればFlashは入力100万トークンあたり$0.14、出力100万トークンあたり$0.28
- Proは入力100万トークンあたり $1.74、出力100万トークンあたり $3.48 に設定されている
- 比較表ではDeepSeek V4 FlashはGPT-5.4 Nanoの入力$0.20・出力$1.25、Gemini 3.1 Flash-Liteの入力$0.25・出力$1.50より安く、小型モデルの中で最安
- DeepSeek V4 ProはGemini 3.1 Proの入力$2・出力$12、GPT-5.4の入力$2.50・出力$15、Claude Sonnet 4.6の入力$3・出力$15、Claude Opus 4.7の入力$5・出力$25、GPT-5.5の入力$5・出力$30より安く、大型フロンティアモデルの中で最安
-
効率化が低価格を支える
- DeepSeek論文 では、今回のリリースで長コンテキストプロンプトの効率に大きく注力したと説明している
- 100万トークンコンテキストでDeepSeek-V4-ProはDeepSeek-V3.2比で単一トークンFLOPsが 27%、KVキャッシュサイズが 10% にとどまる
- 同条件でDeepSeek-V4-FlashはDeepSeek-V3.2比で単一トークンFLOPsが 10%、KVキャッシュサイズが 7% まで低減されている
-
ベンチマークではフロンティアに迫るが最上位には及ばず
- DeepSeekの 自己報告ベンチマーク は、Proモデルが他のフロンティアモデルと十分競争可能だという結果を示している
- 論文によれば、推論トークン拡張を適用したDeepSeek-V4-Pro-Maxは標準的な推論ベンチマークでGPT-5.2とGemini-3.0-Proを上回る性能を示した
- ただしGPT-5.4とGemini-3.1-Proにはやや及ばず、最先端のフロンティアモデルより約 3〜6か月 遅れた開発軌道を示している
- huggingface.co/unsloth/models でUnslothの量子化版公開が期待されており、Flashモデルがローカルマシンでどこまでうまく動くかが引き続き注目点となっている
2件のコメント
とにかく本当に安いのは良いんだけど、問題は遅すぎること…。codexなら5分で済むものを、こっちは20分考える。なので実装用というよりコードレビュー用として使っているけど、コードレビューはかなり上手いので満足している
Hacker Newsの反応
自分にとって最大の差別化要因は、DeepSeekは単に頼んだことをやってくれること。最近リバースエンジニアリング用途でGPTとClaudeを両方使ってみたが、どちらも拒否し、OpenAIのアカウントでは警告まで受けた
Deepseek v4 pro 94%
Deepseek v4 flash - 96%
https://artificialanalysis.ai/evaluations/omniscience?models...
本当に腹が立ったし、昔のSpongeBobのPatrickミームみたいだった。なぜモデルを法執行官にしたがるのかわからない。違法なことは今でも違法だし、犯罪を扱う専門家もいる。Googleが真実と正義の仲裁者になる必要はない。法執行機関でさえ責任追及はすでに難しいが、少なくとも彼らは私たちのために働いている
開発者のみんな、私たちはどんな世界を作ってしまったんだ? これは狂っている。ハンマーが「ネジには使うな、釘だけに使え。もう一度やったら自爆するぞ」と言うのを想像すればいい。こんなソフトウェアをもう作るのはやめてほしい
OpenAIが20社を買収したあと、昔一度あいまいな線を越えたという理由だけでFigmaやNextのようなものが使えなくなる、と想像してみてほしい。OpenAIだけでなくエコシステム全体があまりにも読みにくい
GeminiにCatch-22のある引用について尋ねたら、暴力的でも性的でもない内容なのに、ストリーミングの途中で何度も止まって答えられないと言われた。本にはそういう内容もあるが、その理由だけでworkspaceアカウント全体が減点されるかもしれないと思ってしまう
理想的には未来はローカルであるべきだとわかっているが、今後数年の実コストや電力消費を考えると、それが大半の人にどれほど現実的なのかわからない。そのエコシステムにいるならM*プロセッサあたりが例外だろう
DeepSeek v4 Proは、性格面ではClaude Opus 4.6のように感じられ、コスト面では印象的だった
かなり大きいTypeScriptコードベースで、単一エンドポイントだけに集中してAPI、DTO、サービス、データベースモデルを階層ごとに深く調べ、関連する型を完全に把握しつつ暫定型が生じないようにしてくれと頼んだ
導入される型と、そのうちどれが返されるのかなどをとても短く要点だけでまとめてくれ、その後で全体を単純化してほしいと頼んだ
どちらのプロンプトでもかなり多くのファイルを見たはずだが、Pro版の合計コストは**$0.09**だった。Claude Opusなら、値上げ前の経験ベースでもこの2つのプロンプトだけで$9〜$13くらいは簡単に燃やしただろうし、得られるものも大差なかったはずだ
ちなみにOpenRouterではなくDeepSeek APIを直接使った。OpenRouter自体がDeepSeek側で速度制限を受けていたからだ
そこでtree-sitterでコードをグラフとしてパースし、モデルが「この関数につながっている関数は全部何?」のような質問をできるように、PrologベースのMCPを作った。特定のエンドポイントが何をするのかを見るために、呼び出しの下位グラフ全体を些細で予測可能な形で追跡できる
https://github.com/yogthos/chiasmus
関連して、128GB MacBookでDeepSeek v4 Flashを動かすライブデモがある。イタリア語の動画で英語字幕付き
https://www.youtube.com/watch?v=todMmp6AGCE
vscode copilotにつないでflashとproの両方を使ってみた。小さな概念実証にはflashで十分で、かなり速く、本当に安かった
数回止まったが、レイテンシの問題かもしれないし、それでも結果は良かった。proは重い作業や計画立案などに使い、見事にこなした
小さな概念実証1つに約10セントかかり、プロンプトどおりに正確に動いた。自分にとっては今月末にGitHub Copilotを解約した後の本物の代替だ
コストは最前線モデルより低いとはいえ、DS4 ProとK2.6が見た目ほど安くなくなる要因が2つある
DS4 Proは公式APIに割引が入っているが、これが議論で見落とされたり混同されたりしがちだ。Simonは比較で定価を使っていたので、ここでは問題ない
もう1つの問題は、DS4 ProとK2.6は最前線モデルより推論トークンをかなり多く使うことがよくある点だ。自分のテストでは、病的な一部ケースでトークンを使いすぎて、リクエストコストが最前線モデルと同じになりうることがあった。公平に言えば、DSとKimiをサードパーティプロバイダー経由で使っているので、そちらの設定の問題かもしれない
ただArtificial Analysisのモデルページを見ると、知能ベンチマークでDSv4 Proは190Mトークン、K2.6は170Mトークンを使っている一方で、GPT 5.5 highは45Mしか使っていない
「Intelligence vs. Cost to Run Artificial Analysis Intelligence Index」、UIでは「Intelligence vs Cost」を見るのを勧める。オープンソースモデルのほうが依然として安いが、トークン単価だけを見たときに期待するほどではない
[0] https://artificialanalysis.ai/models/deepseek-v4-pro
[1] https://artificialanalysis.ai/models/kimi-k2-6
[2] https://artificialanalysis.ai/models/gpt-5-5-high
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
長いコンテキスト効率とアテンションを改善するかなり新しい方法であるHCAとmCHを導入した。v3.2比で推論には27%のFLOPしか、KVキャッシュには10%しか必要ない。同じ計算資源で3倍以上サービングでき、以前のKVキャッシュの30%だけで済むということだ
しかも今回のリリースはPREVIEWだ。DeepSeekは本物の公開研究所で、各リリースごとにかなり多くを生み出すだけでなく公開・共有もしている。自分はこれをローカルで動かしている
どれほど「安い」かと言うと、v3.2では256kコンテキストでGPUメモリが足りずシステムメモリにあふれていたが、それでも毎秒7千トークン程度で満足していた。今回は100万トークンのフルコンテキストをGPUメモリ内に100%収め、2倍以上速く動かしつつ結果も良くなっている
これは本当に安い。MoonshotはGPUが足りないことを明確にしていたし、そのせいだ。アメリカのようにGPU容量があり、こちらのようにモデルを支援していたなら、無料でばらまいていただろう
以前Opus 4.6でこれを試したときは、最初のプロンプトが返ってくる前に自分で設定した$10予算を使い切っていた
たとえ大幅割引価格だとしても、完全な解決策にかかったのは一桁ドルだっただろうし、Opusは正確に何も得られないまま二桁ドルかかったはずだ
V4は我々の多言語ベンチマークでV3.2より明らかに一段上だった
ただし注意点が2つある。OpenRouter経由で推論すると速度(TPS)が非常に遅く、時々不安定な問題も多かった。今確認しても利用可能な全プロバイダーで10〜30 TPSなので、DeepSeekのようによく考えるモデルとしては高くない
公式DeepSeek APIは有料ユーザーに対してもデータプライバシーを保証していない
Azure AI Foundry経由で使えば、どちらも問題にならないかもしれない。後者については自分の知る限りそうだが、まだ試してはいない
いずれにせよ、最新の最高水準モデルとある程度競争できるオープンウェイトモデルがさらに出てくるのは歓迎だ
DeepSeek公式APIは、同じコードベースで長いセッションとして使い続けるとキャッシュヒット率が99%以上になるので、最前線モデルよりずっと安い。claude codeで200Mトークンのセッション例がある
人々が、特にモデル開発元のAPIを直接使うときに、こうしたモデルが自分たちのデータで公開学習するという点をまったく気にしていないのは驚きだ
「GitHubが今やみんなのコードをモデル学習に自動オプトインする」みたいな件には、もっともな怒りのコメントが何百も付くのに、OpenRouter経由で中国系モデルを使う話になると、こうした点はほとんど出てこなくなる。「別の人たちだから」と説明することもできるが、差があまりに極端で、それだけで説明しきれるとは思えない
これはオープンウェイトの大きな利点の1つだ。中国もアメリカも自分のデータを取らない
補助金サーカスが終わって、皆が純粋な従量課金に移ったとしても、月**$200の予算**がない普通の人たちにとって完全に排他的にはならない、という希望が持てる
1つは、より小さなモデルにより多くの知能を詰め込む方法を私たちが見つけ続けているので、同じハードウェア仕様でも時間がたつほどより高いモデル能力を提供できるという点だ
もう1つは、ハードウェアが改善し続け、供給が需要に追いつくことで、1ドルで買えるハードウェア仕様も時間とともに良くなるという点だ
いつか、今の「プロバイダーAPI経由でAIにアクセスする」というモデルを、昔の「皆が会社のメインフレームに接続していた」時代を振り返るような感覚で見るようになってほしい
ここ数日v4 proを使ってみたが、品質面では概ねOpenAI 5.4やOpus 4.6と同程度に見える。4.7は使っていない
はっきり言うと、自分は最先端の仕事をしているわけではない。主にフロントエンド開発に使っていて、その分野があまり得意ではないので、もっともらしいプロトタイプが必要なだけだった
自分の用途には十分すぎるモデルで、価格も妥当だ。ただ、ローカルで動かせるほど小さいオープンモデルが出るのを本当に待っている。他人のマシンに依存し、その過程で自分のデータが全部流出していくのが嫌だ
参考までに、自分は共同創業者だ。この方式ではセキュアエンクレーブ内でモデルを動かし、エンクレーブ内で動くオープンソースコードがランタイム証明と一致しているかを検証する。NVIDIA confidential computingを使っている
ドキュメントには検証プロセスが説明されている: https://docs.tinfoil.sh/verification/verification-in-tinfoil