- V3.1-Terminus をベースに、長い文脈処理の効率を高めるため DeepSeek Sparse Attention(スパースアテンション機構)を導入した 実験的モデル
- Sparse Attention は細粒度のスパース演算をサポートし、学習および推論効率を大幅に改善しながら、出力品質は従来と同程度を維持
- 主要ベンチマークで V3.1-Terminus と 同等または一部改善した結果を示し、とくに コーディング・数学問題の解決およびエージェント型ツール利用 で成果を確認
- 研究・活用のため TileLang, DeepGEMM, FlashMLA など関連カーネルもあわせて公開され、読みやすい設計版と高性能 CUDA カーネルの両方を提供
- HuggingFace, SGLang, vLLM などさまざまな環境ですぐに実行でき、次世代の 効率的なトランスフォーマーアーキテクチャ の研究と実務適用の基盤になる見込み
紹介
- DeepSeek-V3.2-Exp は V3.1-Terminus を基に開発された 次世代アーキテクチャ前段階のモデル
- 中核的な特徴は、長文コンテキストでの効率的な推論と学習 を可能にする DeepSeek Sparse Attention(DSA) の適用
- 目標は 計算効率の改善 と 拡張されたテキストシーケンス処理 の最適化
主な成果
- DSA は 高度なスパースアテンション を初めて実現し、効率性を高めながらモデル出力の品質を維持
- 学習構成は V3.1-Terminus と同一にそろえ、性能比較の信頼性 を確保
- 公開ベンチマーク結果:
- Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
- Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
- 全体として 同等またはわずかな改善 が確認された
オープンソースカーネル
- TileLang: 研究目的の可読性が高いカーネル例を提供
- DeepGEMM: 高性能 CUDA カーネルおよびインデクサーロジットカーネルを公開
- FlashMLA: Sparse attention カーネルを提供
実行方法
- HuggingFace: モデル変換後、
torchrun でインタラクティブチャットを実行可能
- SGLang: Docker イメージを提供(H200、MI350、NPU 向け)
- vLLM: Day-0 サポート、公式レシピ文書を提供
ライセンス
1件のコメント
Hacker Newsの意見
二次的な効果としてあまり話題になっていない点は価格であり、モデルの急速なスケーリングとともに価格も下がっているのは印象的だと注目している。これはAIの普及やモデルの知能と同じくらい重要な要素であり、根本的に価格下落を止めるような法則はないと理解している。現在はムーアの法則(あるいはAI/Nvidiaチップの開発サイクル)と似ていて、ハードウェア世代が進むたびにはるかに高速かつ安価になっている。なら1年後にはChatGPT-5を半額で使えることになるだろう(もちろん高性能モデルのほうが高価ではあるが、トークン単価ベースで見た話である)
中国のオープンソースモデルが継続的に進化し、安くなっていく流れを歓迎している。すでに安価なモデルだったが、API価格がさらに50%引き下げられ、Input $0.28/M、(キャッシュヒット時 $0.028/M)、Output $0.42/Mで提供されている
値下げされたとのことだが、以前の価格はいくらだったのか気になる。むしろ最近は価格が上がっていたという印象もあった
値下げは良いが、この水準がどれだけ維持されるのか気になる。以前は非常に安かったのに一度大きく値上がりし、今また下がったからである
Deepseek v3.2-expモデル紹介リンク
奇妙なことに、このモデルは「データで学習する」と表示されている(「このプロバイダーはプロンプトと生成結果を新しいモデルの学習に利用する可能性があります。このプロバイダーは現在無効化されていますが、データポリシーの変更時に再有効化される可能性があります」)。一般的に有料モデルが入力データを学習に使うことはほとんどないため、Openrouterの表示ミスなのか、Deepseekが実際にユーザーデータを学習に利用しているのか気になる
Open Routerが本当にオープンソースなのか疑問である。「メイン」リポジトリはアーカイブ状態で、小さなプロジェクトしかない。実際にオープンソースなのはAPIクライアントのバインディングだけで、コアのルーティングサービスはクローズドなのではないかと思う
自分の理解が正しいかわからないが、このモデルは全体のアテンション分布を模倣するように学習させつつ、重要な上位k個(ここではk=2048)のトークンだけをフィルタリングすることで、コンテキストウィンドウが大きくなっても [query, key] 計算の計算量が線形に増えず、一定に保たれるのが特徴である(実際にはグラフを見ると、インデクサーがコンテキスト全体をざっと一度なめる過程が残っているので O(L) ではある)
こうした「安価な」モデルの大きな問題は、プロバイダーがキャッシュをサポートしていない場合、実運用環境(特にエージェントワークフロー)ではかえってコストが高くなり得る点である。入出力トークンのコストはあまり意味がなく、キャッシュヒット分(再利用)のコストが全トークンの大半を占める。そうなると、いっそGPT-5を使ったほうが安いか、同程度のコストでもっと強力なモデルを使える可能性がある
DeepSeekはキャッシュをサポートしており、キャッシュヒット時のコストはキャッシュミスの10分の1である。具体的にはキャッシュヒット $0.028/M、キャッシュミス $0.28/M、出力 $0.42/M である 参考
このモデルはキャッシュをサポートしていると認識していた。価格案内ページにも、キャッシュヒット時の入力トークンは $0.028 だと明記されている
深刻な問題だと断言しながら前提条件(IF)を付けている。DeepSeek APIは公式にキャッシュをサポートしている。存在しない問題を作り出さないでほしい キャッシュ案内
ベンチマークをほぼ維持したまま、コストが劇的に下がった点に驚いている
興味深いのは、依然としてモデルの進歩速度が速いため、特定モデル専用ハードウェアが大きく脚光を浴びておらず、今なお汎用プラットフォームで主なスケーリング上の利点が生まれているという点である
Deep Sparse Attentionは、コードのような構造的で長文の推論に実質的な助けになりそうだ
本当にすごいと思う。実際に微妙な差異が重要になる現実世界のデータでどう動作するのか気になるし、128Kコンテキストウィンドウを超える状況でもテストされたことがあるのか非常に気になる
Sparse attentionが実環境に適用された事例を見られるのは素晴らしい