- DeepSeek-V3.2は、高い計算効率性と推論・エージェント性能を統合したオープンソースの大規模言語モデル
- 新しい**DeepSeek Sparse Attention(DSA)**構造で、長い文脈でも性能を維持しながら計算複雑度を大幅に削減
- スケーラブルな強化学習(RL)フレームワークによりGPT-5レベルの性能を実現し、高性能版はGemini-3.0-Proと同等の推論力を確保
- 大規模エージェント型作業合成パイプラインで1,800の環境と85,000のプロンプトを生成し、複雑な相互作用環境における汎化と指示実行力を向上
- オープンモデルがクローズドモデルとの差を縮小し、コスト効率的な代替手段として確立
DeepSeek-V3.2概要
- DeepSeek-V3.2は、オープンソースLLMの推論およびエージェント性能の限界を克服するために設計されたモデル
- DeepSeek Sparse Attention(DSA)、スケーラブルな強化学習フレームワーク、大規模エージェント作業合成パイプラインの3つの中核技術で構成
- 高性能版のDeepSeek-V3.2-SpecialeはGPT-5を上回り、Gemini-3.0-Proと同等レベルの推論能力を有する
- 2025年**国際数学オリンピック(IMO)および国際情報オリンピック(IOI)**などで金メダル級の成果を記録
- オープンモデルの効率性と性能を同時に向上させ、クローズドモデルとの性能差を縮小
オープンモデルの限界と改善方針
- オープンソースLLMがクローズドモデルに比べて遅れを取る理由として3つの限界が指摘されている
- 基本アテンション構造の非効率性により、長いシーケンス処理時の計算負荷が大きい
- 事後学習(post-training)段階での演算リソース不足により、難易度の高い課題で性能低下
- エージェントの汎化および命令実行力不足により、実運用での限界が存在
- DeepSeek-V3.2はこれを解決するため、効率的なアテンション構造、スケーラブルなRL学習、ツール活用型推論統合パイプラインを導入
DeepSeek Sparse Attention(DSA)
- DSAは、lightning indexerと精緻なトークン選択メカニズムで構成
- lightning indexerはFP8精度で動作し、各クエリトークンが選択する上位k個のキー・バリューペアを決定
- これにより**O(L²)の複雑度をO(Lk)**に削減し、長い文脈でも効率的な処理が可能
- MLAベース実装で既存のDeepSeek-V3.1-Terminusとの互換性を維持
- 2段階の継続学習プロセスを実行
- Dense Warm-up段階でindexerを初期化
- Sparse Training段階で全モデルをDSAパターンに適応させ、943.7Bトークンを学習
性能評価と効率性
- DeepSeek-V3.2-Expは、長い文脈処理効率を大幅に改善しつつ性能低下なしでDeepSeek-V3.1-Terminusと同等の結果を維持
- AA-LCR3とFiction.liveBenchなどの独立ベンチマークで、前作比で改善された推論スコアを記録
- H800 GPUクラスター基準でトークンあたりのコストが大きく削減され、エンドツーエンド速度の向上を達成
事後学習(Post-Training)および強化学習構造
- **専門家蒸留(Specialist Distillation)と混合型強化学習(Mixed RL)**を統合
- 数学、プログラミング、論理推論、一般エージェント、コードエージェント、検索エージェントなど、6つの専門ドメインモデルをRLで学習
- 各専門モデルのデータを蒸留して最終チェックポイントを生成
- **Group Relative Policy Optimization(GRPO)**アルゴリズムを用いて、推論・エージェント・整合性学習を統合
- 報酬モデル、長さペナルティ、言語一貫性報酬などを組み合わせ
- DeepSeek-V3.2-Specialeは数学的証明能力強化のためにDeepSeekMath-V2データと報酬方式を追加適用
強化学習安定化手法(Scaling GRPO)
- **バイアスのないKL推定(Unbiased KL Estimate)**で安定した収束を確保
- Off-Policy Sequence Maskingで、方針不一致が大きい負のサンプルをマスキングし、学習の安定性を向上
- Keep RoutingによりMixture-of-Expertsモデルのルーティング一貫性を維持
- Keep Sampling Maskでtop-p、top-kサンプリング時の方針間の行動空間不一致を防止
ツール活用型推論(Thinking in Tool-Use)
- Thinking Context Managementを導入し、ツール呼び出し時の不要な再推論を防止
- ユーザーのメッセージが新たに追加された場合にのみ、以前の推論内容を削除
- ツール呼び出し履歴は保持し、効率的な文脈管理を実現
- Cold-Start段階で推論データとエージェントデータを統合
- reasoningデータは<think></think>タグで推論経路を明示
- ツール呼び出しを含むシステムプロンプトで統合学習基盤を整備
- 大規模エージェント作業合成により1,800環境と85,000プロンプトを生成
- 実環境ベースのWeb検索API、コード実行ツール、Jupyter Notebookなどを用いた実環境ベースのRL学習を実施
- Search Agentは、複数エージェントパイプラインとして質問生成、検証、報酬評価を自動化
- 事実の信頼性と実用的有用性を同時に最適化するハイブリッド報酬モデルを適用
結論
- DeepSeek-V3.2は効率的なアテンション構造とスケーラブルなRL学習を組み合わせ、オープンモデルの限界を突破
- 推論・エージェント統合性能でクローズドモデルとの性能差を大きく縮小し、コスト効率的な代替として台頭
- オープンソースLLMの持続可能な高性能進化の方向性を示した事例として評価
1件のコメント
Hacker Newsのコメント
彼らがコスト効率を改善し続け、発展の過程を公開で共有している点は印象的だ。
こうした取り組みがAIの独占を防ぐ力になってほしい。
オープンモデルが商用モデルと競争できるなら、Google・Anthropic・OpenAIのような企業はAIでどうやって収益化するのだろうか、という疑問が湧く。
過去にオープンソースが失敗した理由は、品質と機能の深さでクローズド型に後れを取っていたからだが、今は性能が停滞局面に入ったようにも見える。
結局は最も安価なエネルギーインフラを持つ側が長期的な勝者になるのではないか。
たとえばAmazonがMongoDB APIをサービスとして提供するように、最終的にはインフラ利用料で稼ぐ構造だ。
ほとんどの企業にはSOTAモデルを自前でホスティングする余力がない。メールサーバーですら自前運用しない現実を見れば理解できる。
GoogleがTransformerを生み出し、OpenAIがRLHFでChatGPTを成功させたが、いまは再びGoogleのAI要約機能が検索上位を占めている。
関連文書: Google “We have no moat, and neither does OpenAI”
今回のモデルはベンチマークだけでなく、推論効率も大きく改善されたという。
関連リンク: Thomas Ipの性能比較
DeepSeek-V3.2のchat templateが大きく変わった。
最初は新しいフォーマットを作ったのかと思ったが、文法を見る限り実質的にHarmonyフォーマットと同じに見える。
だとすれば、最初からHarmony互換だと明記してくれていれば、もっと理解しやすかった気がする。
なぜ32〜512GB級のモデルがほとんどなく、Mac Studio M4の最大RAMが128GBなのか気になる。
こうしたモデルがオープンソースとして公開されるのは素晴らしい。だが、RTX 5090を4枚積んだ2万ドルのリグでも十分な速度で動かせるのかは疑問だ。
この点はむしろ元コメントの主張(コンシューマー向けには遅い)を裏付けている。
論文の表3を見ると、DS-Specialeはほぼすべてのテストで1〜2位を取っているが、トークン出力量が50%以上多い。
複数の解答を並列生成して最終解を選ぶ方式によって、推論性能を計算資源でスケールできる。
数時間使ってみたが、とても堅実で競争力のあるモデルだ。GLM4.6より良く、Kimi K2よりも優れていると感じた。v4が楽しみだ。
MITライセンスで公開された大規模フロンティア級モデルという点が興味深い。
米国のAI業界が何を基準に評価しているのかよく分からない。中国モデルの方がはるかに安価で、性能もほぼ同等だからだ。
また、ベンチマークが飽和状態にあるので差が小さく見えるが、上位帯での1%差は実際には大きな意味を持つ。
私が作ったMetabenchリーダーボードでも中国モデルは優秀だが、なお上位との差は存在する。
ただし推論コストが低いため、コストパフォーマンス領域では中国モデルが強い。
米国企業はモデルだけでなく、世界規模の低遅延インフラも一緒に売っているようなものだ。それが高い企業価値を説明している。
参考までに、Cerebrasは非常に高速なGLM 4.6を提供している。
もしかすると、DeepSeekが禁止され、米国内でオープンソフトウェアが遮断されるという前提があるのかもしれない。
今後は細かなエッジケースでフロンティアモデルが差別化される可能性がある。