DeepSeekがV4 Proの価格引き下げを恒久化
(api-docs.deepseek.com)- DeepSeek-V4-Pro API の価格は、75%割引プロモーション終了後も正式に従来価格の 1/4 水準で維持される
- 課金は100万トークンあたりの価格を基準とし、入力トークンと出力トークン の使用量に応じて残高から直接差し引かれる
- 対応モデルは DeepSeek-V4-Flash と DeepSeek-V4-Pro で、どちらも非思考モードと思考モードをサポートし、デフォルトは思考モード
- 両モデルとも コンテキスト長 は 1M、最大出力は 384K で、同時実行制限は Flash が 2500、Pro が 500 と異なる
- すべてのモデルの 入力キャッシュヒット価格 はリリース時価格の 1/10 に引き下げられ、この調整は 2026年4月26日 12:15 UTC から適用される
課金基準
- 価格単位 は100万トークンあたりの料金で、トークンはモデルが認識する最小のテキスト単位であり、単語・数字・句読点などになり得る
- 請求基準 はモデルの入力トークンと出力トークンの総量
- 費用は
トークン数 × 価格で計算され、チャージ残高または支給残高から直接差し引かれる - チャージ残高と支給残高の両方がある場合は、支給残高 が先に使用される
- 製品価格は変動する可能性があり、DeepSeek は価格調整の権利を有する
- 実際の使用量に合わせてチャージし、最新価格は当該ページで定期的に確認することが推奨される
モデルと価格
-
対応モデル
- DeepSeek-V4-Flash と DeepSeek-V4-Pro が提供される
- 両モデルとも非思考モードと思考モードをサポートし、デフォルトは思考モード
deepseek-chatとdeepseek-reasonerのモデル名は今後廃止予定- 互換性のため、
deepseek-chatはdeepseek-v4-flashの非思考モードに、deepseek-reasonerはdeepseek-v4-flashの思考モードにそれぞれ対応する
-
エンドポイントと機能
- Anthropic 形式の Base URL は https://api.deepseek.com/anthropic
- 思考モードの切り替え方法は Thinking Mode で確認可能
- 関連機能のドキュメントとして Json Output, Tool Calls, Chat Prefix Completion(Beta), FIM Completion(Beta) が提供される
-
コンテキストと出力上限
- コンテキスト長 は 1M
- 最大出力 は 384K
100万トークンあたりの価格
| 項目 | DeepSeek-V4-Flash | DeepSeek-V4-Pro |
|---|---|---|
| 入力トークン、キャッシュヒット | $0.0028 | $0.003625 |
| 入力トークン、キャッシュミス | $0.14 | $0.435 |
| 出力トークン | $0.28 | $0.87 |
| 同時実行制限 | 2500 | 500 |
-
DeepSeek-V4-Pro の割引調整
- DeepSeek-V4-Pro の価格は 75% 割引価格で表示される
- キャッシュヒット時の入力トークン価格は従来の $0.0145 から $0.003625 に引き下げ
- キャッシュミス時の入力トークン価格は従来の $1.74 から $0.435 に引き下げ
- 出力トークン価格は従来の $3.48 から $0.87 に引き下げ
- 75%割引プロモーションが 2026年5月31日 15:59 UTC に終了した後も、DeepSeek-V4-Pro API の価格は正式に従来価格の 1/4 に調整される
-
キャッシュヒット価格の引き下げ
- すべてのモデルの 入力キャッシュヒット価格 はリリース時価格の 1/10 に引き下げられる
- この価格調整は 2026年4月26日 12:15 UTC から適用される
-
同時実行制限
- DeepSeek-V4-Flash の同時実行制限は 2500
- DeepSeek-V4-Pro の同時実行制限は 500
- 同時実行制限の詳細は Rate Limit & Isolation で確認可能
1件のコメント
Hacker Newsのコメント
独自のコーディングエージェントを出してきたら、DeepSeekモデルを主力で使い始めるかもしれない
モデルのオープンソース公開、研究発表、低価格の維持など、「正しい方向」のことをやり続けているように見える
Claude CodeでV4 Proが使える 1
実際に使ってみたが、印象的だった
OpenCodeとも非常に相性がいい
うちのチームは別のサブスクリプションサービスの5時間制限によく引っかかるが、DeepSeekをバックアップにしておくとかなり良い
50ドルだけチャージしてあるが、永遠に減らない気がする
まだ最先端モデルを完全に置き換えるほどではないが、バックアップとしては間違いなく優秀だ
DeepSeekがわざわざコーディングエージェントまで提供する必要はない気もする
単にモデルを既存のコーディングエージェントにつないで使えばいい
個人的にはPiが好みだが、各自しっくりくるものを使えばいい
今週初めから、自分のコードベースで中国製モデルのテストを始めた
まだ対話型コーディングというより、Issue分類、バグ自動修正、ログ分析などを見ていて、DeepSeek、Kimi、GLM、Qwen、MiMOをGPT-5.5 highと比較し、すべてPiハーネス上でインストール不要で動かした
今のところKimiとMiMOが最も有望に見える
厳密に十分なテストをしたわけではないが、実務の一般的な日常作業では、これらのモデルは人々が思っているほど遅れていないかもしれないというのが第一印象だ
ただし「賢く働く」というより「力仕事で稼ぐ」タイプに近く、似た結果にたどり着くまでが遅く、トークンも多く使うが、価格ははるかに安い
コーディングエージェントは、モデル提供元からある程度独立しているほうがいい
提供元は品質、機能、価格をあまりに頻繁に変えるので、そのたびにエージェントまで乗り換えたくはない
状況がもう少し落ち着いて安定してくれることを期待している
今すぐそうすべきという意味ではないが、そういう時期が来るといい
DeepSeek V4をまだ使っていないなら、大きく損している
価格を考えると信じがたいほど良い
DeepSeekの思考連鎖は読んでいて本当に面白い
OpenCodeでは表示されないが、自分で読めば、このモデルがどれだけ過小評価されているか驚くかもしれない
自分のモデル利用量はごく少ないが、モデルをオープンソースで公開していることへの感謝と、全体として社会的善だと考える方向性への支持を示すために、DeepSeekに定期的に直接お金を払っている
良くて安いが、政治の話を持ち出すと検閲ルールのようなものが発動することがある
思考過程を見ていると、突然それまでを全部消して、説明もなく別の話題に変えようと提案してくる
ニュースメディアは人民のために奉仕する、といった一般論メッセージを出したこともある
どちらもセンシティブな依頼でも、違法や体制転覆的な依頼でもなかったので驚いた
ただ少しでも政治的な話題だった、それだけで十分だった
西側の検閲はたいていもっと巧妙なので、不気味でありつつ妙に新鮮だった
そう、本当に良いモデルだ
会社ではClaudeを使い、個人ではDeepSeekを使っているが、私を本気で破産させようとしてこない唯一のモデルだ
特定の作業ではV4 Proが好きだが、コーディングではV4 Flashがかなり印象的だった
簡潔で要点を押さえていて、ミスが少なく、かなり速い
opencode CLIでは推論トレースが見える
設定の問題かもしれない
opencodeでは推論表示をオン・オフできる
この価格は怪しいほど安い
同じモデルを他のプロバイダーがホスティングすると、ずっと高い 0
つまり、DeepSeekは他よりはるかに安くホストできるか、ビジネスモデルが違うかのどちらかで、おそらく後者だと思う
特にプライバシーポリシー 1 に、「User Input」を含む個人情報を「サービス改善および開発、技術の訓練と改善」に使えるとあるからだ
馬鹿げた質問かもしれないが、OpenRouterを見ると、DeepSeekを提供しているのは本当に米国、シンガポール、中国以外にないのだろうかと思う
欧州や他の西側プロバイダーが提供してもおかしくない、かなり明白な商品に見える
Mistralよりはるかに大きな飛躍になると確信している
これらのモデルは使ってみたいが、標準的な法的要件を超えて自分のデータで学習したり保存したりするプロバイダーは避けたい
いくつもの要因が絡んでいる
推論スタックの効率という面では、多くのプロバイダーは既製の sglang / vllm / trtllm を持ってきて最善を期待するが、DeepSeekチームは最適化の限界を押し広げることで知られている
sglangとvllmは素晴らしいソフトウェアだが、DeepSeekの疎アテンション(DSA)を見ると、1.5年前に導入されており(https://arxiv.org/abs/2512.02556)、DeepSeek 3.2、GLM 5、DeepSeek V4で使われている
ようやく主要な推論エンジンで最適化がゆっくり入り始めているところだ: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 など)
もちろんDS V4はDSAの上にモデル構造の最適化も加えており、オープンソースの推論エンジンがこれを完全に活用するにはまだ時間がかかるだろう
プライバシー面では、中国外でホストされる推論に人々が追加料金を払う、という賭けもある
DeepSeekはAPIデータをモデル改善に使うと透明に明言しているので、なおさらだ
そのほか、規模(MoEでは非常に重要)、信頼性、緩やかなエンタープライズ顧客の囲い込みといった要素もある
また、暗黙の談合がある可能性も高い
GLM 5とGLM 5.1の価格を見ると、両者の実行コストは同じなのに、5.1のほうがずっと良いモデルで、Z.AIも価格を上げたため、プロバイダーは5.1により高い価格を付けた
明らかに逆ざやで売っている
でも、それの何が悪いのだろう
赤字を出しながら市場シェアを取るのは、米国だけの専売特許ではない
DeepSeekの創業者Liang Wenfengについて、十分に知られていないのかもしれない
彼はHigh-Flyer Quantの創業者でもある
キャッシュのほうが気になる
「すべてのモデルで入力キャッシュヒット価格が発売価格の1/10に引き下げられ、この価格調整は2026/4/26 12:15 UTCから適用される」と書かれている
終了日は書かれていない
現在、DeepSeek V4 Flashは入力価格の2%、今回のV4 Pro価格では0.8%で、競合に比べて極端に低く、ユニットエコノミクスにも影響するレベルなので、一時的なものだと思っていた
V4 Proの場合、キャッシュを考慮した実効コストは入力トークン100万あたり約**$0.04**だ(OpenRouterの指標: https://openrouter.ai/deepseek/deepseek-v4-pro)
競合の小型モデルよりもずっと安い
DeepSeek V4のKVキャッシュは、強く圧縮された疎アテンション構造のおかげで非常に効率的だ
DSAのみを使うDeepSeek V3.2はより小さいモデルだが、100万コンテキストウィンドウではDS V4 Proより10倍多くメモリを使う
また、DeepSeek APIはキャッシュヒット率も非常に高い
同じワークロードで、オープンウェイトモデルを提供する主要な西側推論プロバイダーはKVキャッシュヒット率が約50%だが、DS APIは約80%出る
DeepSeek V4の大きなポイントは、KVキャッシュサイズが大幅に減ったことだ
Flash自体はそこまで競争力のあるモデルではなく、価格も市場の他モデルと同程度の範囲だ
Flashモデルの最も直接的な競合は、おそらく次のようなものだ
GPT 5.4 mini
Cache Read
$0.075
/M tokens
Gemini 3 flash:
Cache Read
$0.05
/M tokens
だから、特別に魔法のようでも画期的でもない
Sonnet:
Cache Read
$0.30
Gemini 3.5 flash:
Cache Read
$0.15
とてつもないコストパフォーマンスだ
しばらくGLM 5.1でGLM Coding Plan Maxを使っていて、DeepSeek V4 Proも3週間ほどテストしたが、複雑なコーディング作業ではGLM 5.1より優れていると思う
6,500万トークン使って、この価格で1.5ドルだった。本当に安い
すごい
これでDeepSeek V4 Proは、同じカテゴリの中でも他モデルに比べて極端に安くなる
出力トークン100万あたりの価格を見ると次の通り
DeepSeek V4 Pro: $0.87
Qwen 3.7 Max: $7.50
Grok 4.3: $2.50
GLM 1.5: $3.08
Opus 4.7: $25.00
GPT-5.5: $30.00
エージェントワークフローではこのコストが支配的になることがあり、DeepSeekのキャッシュ読み取りコストは比較にならないほど低い
トークン100万あたり**$0.003626**で、この一覧で次に安いものでも100万あたり$0.2を超える
ほぼ100倍差のスケールだ
制約なしに金を燃やすことを許すのでなければ、推論を効率化することは可能だという意味だ
サブスク2か月後にコスト削減のためOpusをGPT-3以下にしてしまうなら、いくらOpusが良くても意味がない
V4 Proの値引きを考慮しても、V4 Flashのほうがドル当たり性能は最も高く、エージェント型・ツール使用の多い作業では総合性能も上だ
V4 Proは単発推論ではより賢いが、速度差が大きい
性能、コスト、速度を合わせて考えると、V4 Flashは現時点で私たちの基準では断トツのベストなフラッシュモデルだ
データは https://gertlabs.com/rankings にある
彼らのMLAアーキテクチャは、標準的なアテンションに比べてKVキャッシュを約5〜13倍削減する
だから、単なる市場シェア獲得のための価格競争ではなく、実際に推論実行コストが低い
一般消費者向けプラットフォームで長いコンテキスト、バッチ推論、KVキャッシュのディスク保存が可能になる
今回の値下げは、新世代モデルでキャッシングがどれだけ効率的に機能するかを確認するための発売後の市場実験だった可能性が高い
米国ホスティングのモデルより、中国ホスティングのモデルのほうが偶発的なデータ漏えいが心配だ
たとえばエージェントがenvファイルを読むような場合だ
中国政府が米国政府や企業よりも、すべての会話をスキャンして有用な情報を保存する可能性が高いと疑うのは間違いだろうか?
こういう言い方は偏見的で外国人嫌悪のようにも聞こえるので、このコメントを書くこと自体ためらった
自分が間違っていると誰かに説得してほしい
DeepSeekホスティングの背後にある会社がどんな会社で、データプライバシーを尊重してきた実績があるのか知っている人はいるだろうか?
不合理な心配ではない
だから米国企業の多くはAWS BedrockやAIラボを好み、通常はデータ保持なし契約を求める
ただ、どこでホストされていようと漏えいの懸念はあり、違うのはインセンティブ構造だと思う
たとえばAIラボもすべての会話をスキャンし、企業向けZDR契約で保護されていないデータで学習している
法執行機関は有効な令状や緊急時に、すべてのユーザーデータへのアクセスを要求できる 1
DeepSeek V4をプライベートに使いたいなら、Tinfoil(tinfoil.sh)を試してみるといい
すべてのモデルを検証可能な安全ハードウェアエンクレーブでホストし、推論をエンドツーエンドでプライベートにしている
念のため言うと、私は共同創業者の一人だ
1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...
Azureのようなもの経由で使えばいい
完全なモデルをホストして米国内で提供している
こうしたプロバイダーは他にもあるはずだ
私たちはそうやって使っていて、とても順調だ
彼らがそうしていたとしても驚かないと思う
米国に本拠を置くモデルが、別の政府のためにそうしていたとしても、そこまで驚かないだろう
データの機密性については大きな期待を持っていない
Microsoftは企業向けのチェックボックスを一通り埋めているが、Azureも時々侵害される
そういうことが起きる可能性はゼロではないと思う
北京はいつでも、DeepSeekが強力すぎるとか主要輸出品になったと判断して介入できる
すでにそうしていない保証もない
中国に限らない外国勢力が、米国の複数産業にまたがる重要ネットワークに大規模侵入し、適切な時期に悪用しようと待っているという報告は多い
最先端モデルもまた一つの攻撃ベクトルであり、考えてみれば、はるかに簡単に悪用できるかもしれない
実際、クラウドホスティングのモデルである限り、どこにでもこうした可能性はある
モデルを作る会社が意図的にやるにせよ、悪意ある行為者が脆弱性を悪用するにせよ同じだ
中国の誰かがわざわざ自分を狙いに来るほど、自分は重要人物ではない
それにDeepSeekは、ユーザーが引き続きプラットフォームを使うのに十分な信頼を維持する必要がある
みんなの暗号資産ウォレットを狙うキーロガーのように振る舞えば、信頼は崩壊する
もし自分が中国政府にとって戦略的に重要だと見なされる仕事をしているなら、もちろん心配するだろうが、私はそうではない
むしろこの国のテック富豪たちがLLMで私を広範にプロファイリングし、中国の現実または想像上の社会信用スコアより、はるかにディストピア的な何かをこの国で作り出すことのほうが心配だ
米国の一個人であるあなたが中国政府を心配すべきだと説得しようとしている人たちこそ、本当に心配すべき人たちである可能性が高い
copilotにつなごうとしている人向けに、以前接続を処理するプロキシスクリプトを作っていて、役に立つかもしれない: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...