DeepSeek-V4論文読解まとめ - ノ・ジョンソク

(youtube.com)

10 ポイント投稿者 ragingwind 1 일 전 | 4件のコメント | WhatsAppで共有

DeepSeek-V4が示したアーキテクチャ革新とフロンティアラボの新たな座標。2026年4月第4週、GPT-5.5やGoogle Cloud Nextなど大きな発表が続く中、最も注目すべき出来事はDeepSeek-V4の公開でした。R1から約1年4か月ぶりに登場した今回のモデルは、600B規模だったV3から1.6T規模へと大幅にスケールアップし、アクティブパラメータもわずかに増加しました。とりわけ、Sparse Attention、mHC（Manifold-Constrained Hyper-Connections）、Muonオプティマイザという3系統のアルゴリズム変更が同時に適用され、その成果が約40ページの論文にぎっしりまとめられています。ノ・ソンフン氏とノ・ジョンソク氏は、このレポートを単なる性能自慢ではなく、1年にわたる苦しい試行錯誤の記録だと評価しました。

中核的なアーキテクチャ変更

Sparse Attentionの本格導入: すべての過去トークンを参照していた従来方式の代わりに、意味のある一部のトークンだけを選んで参照するように変更しました。スライディングウィンドウアテンション、100分の1に圧縮したトークンに対するフルアテンション、そして4分の1に圧縮したうえでLightning Indexerでtop-kを選び出すCompressed Sparse Attention、この3つを組み合わせた構造です。
mHCの適用: ディープラーニングの中核である残差接続の経路を広げて制約を緩和するHyper-Connectionsを、マニフォールド上で安定化した構造です。
Muonオプティマイザの採用: Adam以降、中国モデルで事実上の標準のように使われているオプティマイザで、学習速度とデータ効率を同時に引き上げます。
MLAの除去: DeepSeekの象徴ともいえたMLAを捨て、シンプルなMulti-Query Attentionへ移行しました。

長所と特長

ロングコンテキストコストの急減: V3比で2.5〜3倍大きいモデルであるにもかかわらず、トークン演算の計算量は約27%、KVキャッシュメモリは10%水準まで削減しました。
事前学習段階からのロングコンテキスト学習: 初期の1Tトークンは4K〜16Kで、その後の30T超のトークンは64K以上で学習しました。後処理でコンテキストを伸ばす従来慣行とは異なる方向性です。
インフラ最適化の深さ: ByteDanceのCometを改良したMoE通信・演算オーバーラップ、電力スロットリングがかかるほどまで攻めたメガカーネル、TileLangへの貢献、batch invarianceカーネルの大幅最適化、専門家重みのMXFP4（4ビット）圧縮などが緻密に盛り込まれています。
アルゴリズム面のリーダーシップ: 米国ビッグテックがアーキテクチャを公開しない状況において、事前学習領域に限れば同等か一部では先行していると見なせる水準だという評価が出ています。

短所と限界

学習の不安定性: 最近のLLM開発者が学習は非常に安定していると語る流れとは異なり、DeepSeek-V4は学習の不安定性に各所で苦しんだことを率直に明かしています。MoEゲーティングの修正、クランピング、さらに過去時点の重みでルーティングするAnticipatory Routingのような難解な仕組みまで動員しました。
再現の難しさ: Sparse Attentionを事実上ゼロから学習させることは極めて難しいというのが、中国内の他チームに共通する結論でした。DeepSeekが成功したからといって、他チームが容易に追随できるとは限りません。
ポストトレーニングの物足りなさ: 事前学習の飛躍に比べると、ポストトレーニングにはまだ伸びしろがあるように見えるという評価です。4.1、4.2段階で大きく補強される余地があります。
データに対する沈黙: 32Tトークンを用意したと言及するのみで、合成データの使用有無など具体的なデータ構成についてはほとんど語っていません。

差別化ポイント

透明性の高い公開: 他のフロンティアラボがアーキテクチャを隠すのとは異なり、構造と試行錯誤を比較的率直に公開しています。
事前学習段階への統合設計: ロングコンテキスト、Sparse Attention、FP4量子化を後処理ではなく事前学習に組み込んだ点が際立っています。
ハードウェアの多様化: NVIDIAチップとともにHuaweiチップも併用していると明かし、中国国内で半導体の代替策が定着しつつあることを示唆しています。

業界の視点から見た意味

中国フロンティアラボの地形変化: DeepSeek、Kimi、Z.ai（GLM）、Tencent Hunyuan 3、Xiaomi MiMoなど5社近いチームが同時に前面へ登場し、事前学習の面では米国と同等、あるいは一部で先行する領域が生まれているという見方が出ています。
ポストトレーニングが次の戦場: 事前学習に匹敵する計算資源がポストトレーニングに投入される時期が間もなく到来するとみられ、ここでの差が次世代の勝負所になる可能性が高いです。
モデル更新の日常化: GPT-5.5、Claude Mythos、Spud、DeepSeek-V4が近い時期にベースモデルを刷新し、モデル更新がChromeブラウザのアップデートのように当たり前になっていく流れが感じられます。

今回のDeepSeek-V4は、単一モデルの性能指標というよりも、1つのチームが1年のあいだにどの難題をどのように正面突破したかを示す記録に近いものです。Sparse Attentionを事前学習段階から導入し続ける試み、1.6T規模でロングコンテキストのコストを1桁台の比率まで引き下げたインフラ作業、そして学習の不安定性と格闘しながら導入した非定型的な仕組みは、今後の中国発フロンティアモデルの新たなベースになる可能性が高いです。同時に、ポストトレーニングとデータに残された課題も依然として明確であり、4.1と4.2がどこまでこの差を縮めるのかが次四半期の注目点になりそうです.

4件のコメント

winkagn 1 시간 전

人々は中国製だから信頼できないというふうに言ったりしますが、私はDeepSeekが研究し公開する方向で、試行錯誤まで公開していることについては本当にありがたいと思います。

junghwanlee 23 시간 전

ノ・ソンフンさん→ キム・ソンヒョンさんです

xguru 22 시간 전

修正しておきました

ragingwind 23 시간 전

ありがとうございます。修正が必要ですね。

DeepSeek-V4論文読解まとめ - ノ・ジョンソク

関連記事

4件のコメント