DeepSeek-V3.2公開 - オープン大規模言語モデルの限界を拡張する

(huggingface.co)

6 ポイント投稿者 GN⁺ 2025-12-02 | 1件のコメント | WhatsAppで共有

DeepSeek-V3.2は、高い計算効率性と推論・エージェント性能を統合したオープンソースの大規模言語モデル
新しい**DeepSeek Sparse Attention（DSA）**構造で、長い文脈でも性能を維持しながら計算複雑度を大幅に削減
スケーラブルな強化学習（RL）フレームワークによりGPT-5レベルの性能を実現し、高性能版はGemini-3.0-Proと同等の推論力を確保
大規模エージェント型作業合成パイプラインで1,800の環境と85,000のプロンプトを生成し、複雑な相互作用環境における汎化と指示実行力を向上
オープンモデルがクローズドモデルとの差を縮小し、コスト効率的な代替手段として確立

DeepSeek-V3.2概要

DeepSeek-V3.2は、オープンソースLLMの推論およびエージェント性能の限界を克服するために設計されたモデル
- DeepSeek Sparse Attention（DSA）、スケーラブルな強化学習フレームワーク、大規模エージェント作業合成パイプラインの3つの中核技術で構成
高性能版のDeepSeek-V3.2-SpecialeはGPT-5を上回り、Gemini-3.0-Proと同等レベルの推論能力を有する
- 2025年**国際数学オリンピック（IMO）および国際情報オリンピック（IOI）**などで金メダル級の成果を記録
オープンモデルの効率性と性能を同時に向上させ、クローズドモデルとの性能差を縮小

オープンモデルの限界と改善方針

オープンソースLLMがクローズドモデルに比べて遅れを取る理由として3つの限界が指摘されている
- 基本アテンション構造の非効率性により、長いシーケンス処理時の計算負荷が大きい
- 事後学習（post-training）段階での演算リソース不足により、難易度の高い課題で性能低下
- エージェントの汎化および命令実行力不足により、実運用での限界が存在
DeepSeek-V3.2はこれを解決するため、効率的なアテンション構造、スケーラブルなRL学習、ツール活用型推論統合パイプラインを導入

DeepSeek Sparse Attention（DSA）

DSAは、lightning indexerと精緻なトークン選択メカニズムで構成
- lightning indexerはFP8精度で動作し、各クエリトークンが選択する上位k個のキー・バリューペアを決定
- これにより**O(L²)の複雑度をO(Lk)**に削減し、長い文脈でも効率的な処理が可能
MLAベース実装で既存のDeepSeek-V3.1-Terminusとの互換性を維持
2段階の継続学習プロセスを実行
- Dense Warm-up段階でindexerを初期化
- Sparse Training段階で全モデルをDSAパターンに適応させ、943.7Bトークンを学習

性能評価と効率性

DeepSeek-V3.2-Expは、長い文脈処理効率を大幅に改善しつつ性能低下なしでDeepSeek-V3.1-Terminusと同等の結果を維持
AA-LCR3とFiction.liveBenchなどの独立ベンチマークで、前作比で改善された推論スコアを記録
H800 GPUクラスター基準でトークンあたりのコストが大きく削減され、エンドツーエンド速度の向上を達成

事後学習（Post-Training）および強化学習構造

**専門家蒸留（Specialist Distillation）と混合型強化学習（Mixed RL）**を統合
- 数学、プログラミング、論理推論、一般エージェント、コードエージェント、検索エージェントなど、6つの専門ドメインモデルをRLで学習
- 各専門モデルのデータを蒸留して最終チェックポイントを生成
**Group Relative Policy Optimization（GRPO）**アルゴリズムを用いて、推論・エージェント・整合性学習を統合
- 報酬モデル、長さペナルティ、言語一貫性報酬などを組み合わせ
DeepSeek-V3.2-Specialeは数学的証明能力強化のためにDeepSeekMath-V2データと報酬方式を追加適用

強化学習安定化手法（Scaling GRPO）

**バイアスのないKL推定（Unbiased KL Estimate）**で安定した収束を確保
- 既存のK3推定器の不安定な勾配問題を解決
Off-Policy Sequence Maskingで、方針不一致が大きい負のサンプルをマスキングし、学習の安定性を向上
Keep RoutingによりMixture-of-Expertsモデルのルーティング一貫性を維持
Keep Sampling Maskでtop-p、top-kサンプリング時の方針間の行動空間不一致を防止

ツール活用型推論（Thinking in Tool-Use）

Thinking Context Managementを導入し、ツール呼び出し時の不要な再推論を防止
- ユーザーのメッセージが新たに追加された場合にのみ、以前の推論内容を削除
- ツール呼び出し履歴は保持し、効率的な文脈管理を実現
Cold-Start段階で推論データとエージェントデータを統合
- reasoningデータは<think></think>タグで推論経路を明示
- ツール呼び出しを含むシステムプロンプトで統合学習基盤を整備
大規模エージェント作業合成により1,800環境と85,000プロンプトを生成
- 実環境ベースのWeb検索API、コード実行ツール、Jupyter Notebookなどを用いた実環境ベースのRL学習を実施
- Search Agentは、複数エージェントパイプラインとして質問生成、検証、報酬評価を自動化
- 事実の信頼性と実用的有用性を同時に最適化するハイブリッド報酬モデルを適用

結論

DeepSeek-V3.2は効率的なアテンション構造とスケーラブルなRL学習を組み合わせ、オープンモデルの限界を突破
推論・エージェント統合性能でクローズドモデルとの性能差を大きく縮小し、コスト効率的な代替として台頭
オープンソースLLMの持続可能な高性能進化の方向性を示した事例として評価

1件のコメント

GN⁺ 2025-12-02

Hacker Newsのコメント

彼らがコスト効率を改善し続け、発展の過程を公開で共有している点は印象的だ。
こうした取り組みがAIの独占を防ぐ力になってほしい。
- ただ、実際に誰がコスト効率で「勝っている」のかは分からない。各社の損益構造を知らないからだ。
- 共感はするが、彼らの意図が単一だとは思わない。
- 単一GPUで完全に動くようになるまでは、誰も真のコスト効率の勝者ではない。
- 競合よりはるかに優れたモデルを作るまでは、こうした公開を続けるのだろう。だが、本当に優位を確立した後も公開を続けるなら、その時こそ心から感心すると思う。
- ただし、中国共産党が支援する企業を純粋な意図で見なすのは甘い考えだと思う。その背後には明らかに別の目的があるはずだ。
オープンモデルが商用モデルと競争できるなら、Google・Anthropic・OpenAIのような企業はAIでどうやって収益化するのだろうか、という疑問が湧く。
過去にオープンソースが失敗した理由は、品質と機能の深さでクローズド型に後れを取っていたからだが、今は性能が停滞局面に入ったようにも見える。
結局は最も安価なエネルギーインフラを持つ側が長期的な勝者になるのではないか。
- Googleの社内文書によれば、「AI/LLMには堀(moat) がない」とされている。だが、モデルを直接所有していなくても、SaaSやMaaSとして提供すれば依然として大きな利益を上げられる。
  たとえばAmazonがMongoDB APIをサービスとして提供するように、最終的にはインフラ利用料で稼ぐ構造だ。
  ほとんどの企業にはSOTAモデルを自前でホスティングする余力がない。メールサーバーですら自前運用しない現実を見れば理解できる。
  GoogleがTransformerを生み出し、OpenAIがRLHFでChatGPTを成功させたが、いまは再びGoogleのAI要約機能が検索上位を占めている。
  関連文書: Google “We have no moat, and neither does OpenAI”
- 企業はOpenAIやAnthropicを信頼している。問題が起きた時に責任を負わせる相手がいることも重要だ。
- もし宇宙で安価なエネルギーを確保できるなら、MuskはAI競争で大きな優位に立つかもしれない。彼は月にAI衛星工場を建てることに執着している。
- 結局の勝負はUX、ロックイン、信頼の組み合わせだ。個人データに深くアクセスするAIであるほど、人々は慣れ親しんだブランドを好む。
- 純粋にモデルそのものでは収益は出ない。既存の収益化済みプラットフォームにモデルを統合することが中核的な価値だ。
今回のモデルはベンチマークだけでなく、推論効率も大きく改善されたという。
関連リンク: Thomas Ipの性能比較
- なぜそこまで効率的なのか、その理由が気になる。
DeepSeek-V3.2のchat templateが大きく変わった。
最初は新しいフォーマットを作ったのかと思ったが、文法を見る限り実質的にHarmonyフォーマットと同じに見える。
だとすれば、最初からHarmony互換だと明記してくれていれば、もっと理解しやすかった気がする。
なぜ32〜512GB級のモデルがほとんどなく、Mac Studio M4の最大RAMが128GBなのか気になる。
- 冗談だが、「128GBで十分だ」という言葉を思い出す。M5 Maxではもっと大きなRAMを期待したい。
こうしたモデルがオープンソースとして公開されるのは素晴らしい。だが、RTX 5090を4枚積んだ2万ドルのリグでも十分な速度で動かせるのかは疑問だ。
- 512GBのMac Studio M3 Ultraでは、毎秒およそ20トークンほど出るらしい。デモ動画
- 大規模モデルはクラウドで時間課金またはトークン課金で回すのが現実的だ。自前でH100ラックを買って動かすこともできるが、クラウド利用の方がはるかに効率的だ。
- 個人用リグはもはやコスト効率が悪い。GPU、電力、冷却コストまで考えると、RTX Pro 6000を買う方がましだと思う。
- OpenRouterでDeepSeek-V3.2を提供している2か所（DeepSeekを含む）は、どちらも約28tpsで動かしている。OpenRouterリンク
  この点はむしろ元コメントの主張（コンシューマー向けには遅い）を裏付けている。
- 自分もRTX 3090を6枚積んだリグを使っているが、685Bパラメータのモデルは遅すぎる。快適に使えるのは144B以下のモデルだけだ。GLM 4.5 Airは特によかった。
論文の表3を見ると、DS-Specialeはほぼすべてのテストで1〜2位を取っているが、トークン出力量が50%以上多い。
- 一部の論理推論問題では、より長い思考連鎖が必要になる。低コストなDeepSeekはこの部分を最大化できたのだろう。
  複数の解答を並列生成して最終解を選ぶ方式によって、推論性能を計算資源でスケールできる。
数時間使ってみたが、とても堅実で競争力のあるモデルだ。GLM4.6より良く、Kimi K2よりも優れていると感じた。v4が楽しみだ。
MITライセンスで公開された大規模フロンティア級モデルという点が興味深い。
米国のAI業界が何を基準に評価しているのかよく分からない。中国モデルの方がはるかに安価で、性能もほぼ同等だからだ。
- 中国モデルは主にテキスト中心で、米国・欧州モデルは画像・音声・動画まで扱うためコストが大きい。
  また、ベンチマークが飽和状態にあるので差が小さく見えるが、上位帯での1%差は実際には大きな意味を持つ。
  私が作ったMetabenchリーダーボードでも中国モデルは優秀だが、なお上位との差は存在する。
  ただし推論コストが低いため、コストパフォーマンス領域では中国モデルが強い。
- 実運用ではインフラ速度が鍵になる。OpenRouterでは中国モデルはClaude、GPT、Geminiほど速くない。
  米国企業はモデルだけでなく、世界規模の低遅延インフラも一緒に売っているようなものだ。それが高い企業価値を説明している。
  参考までに、Cerebrasは非常に高速なGLM 4.6を提供している。
- サードパーティの提供者はキャッシュをサポートしていない。キャッシュが有効になれば、米国モデルのコストは2倍程度まで下がり、はるかに競争力が増すはずだ。
- 米国企業のバリュエーションは現在の成果よりも将来性に基づいている。中国の研究への理解が不十分なまま投資されている面がある。
  もしかすると、DeepSeekが禁止され、米国内でオープンソフトウェアが遮断されるという前提があるのかもしれない。
- それでも、米国が先にFOMO（取り残されることへの恐れ）で競争に火を付けていなければ、中国の戦略も今ほど通用しなかっただろう。
  今後は細かなエッジケースでフロンティアモデルが差別化される可能性がある。

DeepSeek-V3.2公開 - オープン大規模言語モデルの限界を拡張する

DeepSeek-V3.2概要

オープンモデルの限界と改善方針

DeepSeek Sparse Attention（DSA）

性能評価と効率性

事後学習（Post-Training）および強化学習構造

強化学習安定化手法（Scaling GRPO）

ツール活用型推論（Thinking in Tool-Use）

結論

関連記事

1件のコメント

Hacker Newsのコメント