DeepSeek、FlashMLAをオープンソース公開（1/5）

xguru · 2025-02-24T15:14:21+09:00

Hopper GPU向けの効率的なMLAデコーディングカーネル可変長シーケンスのサービング向けに最適化済み現在リリースされているもの BF16 64ブロックサイズのPaged kvcache ベンチマーク: CUDA 12.6を使用し、H800 SXM5でメモリバウンド構成では最大3000GB/s、演算バウンド構成では580 TFLOPSを達成 FlashAttention 2&3 と cutlass から着想を得ている DeepSeek Open Infraとして公開される5つのオープンソースのうち最初の項目

(github.com/deepseek-ai)

5 ポイント投稿者 xguru 2025-02-24 | 2件のコメント | WhatsAppで共有

Hopper GPU向けの効率的なMLAデコーディングカーネル
可変長シーケンスのサービング向けに最適化済み
現在リリースされているもの
- BF16
- 64ブロックサイズのPaged kvcache
ベンチマーク: CUDA 12.6を使用し、H800 SXM5でメモリバウンド構成では最大3000GB/s、演算バウンド構成では580 TFLOPSを達成
FlashAttention 2&3 と cutlass から着想を得ている
DeepSeek Open Infraとして公開される5つのオープンソースのうち最初の項目

2件のコメント

GN⁺ 2025-02-25

Hacker Newsの意見

vLLMは3週間前からDeepSeekモデル向けのMLAをサポートし始めていた。これにより、3倍高い生成スループットと10倍のトークンメモリ容量を提供する
- MHAは依然として低QPS環境ではより高速
- 理論的な根拠によれば、同一のKVキャッシュオーバーヘッドにおいて、MLAはGQAより一貫して高い表現力を提供する
- 広く使われているGQAベースの事前学習モデル（LLaMA、Qwen、Mixtralなど）をMLAベースのモデルに変換可能
- MLAが標準になる可能性が高い
DeepSeek R1が標準のMHAを使っていた場合、KVキャッシュ保存のためにトークン当たり1749KBが必要だったはず
- 会話が約46,000トークンに達すると、KVキャッシュが単一のH100の全保存容量を超えることになる
- MLAを使えば各トークンは125KBを消費する。これは約640,000トークン（Ulyssesの2倍）を超えるまで可能
BF16対応、ページドKVキャッシュ（ブロックサイズ64）、H800で3000 GB/sのメモリバウンドおよび580 TFLOPSのコンピュートバウンド
- 多くのFANG開発者がこれによってかなりの時間を節約できただろう
- 惜しいのは前方パスしかサポートしていない点。本当の秘密は逆方向パスにあった
- デュアルパイプスケジューラをどう実装したのか気になっていた
MLAはおそらくMulti-head latent attentionを意味している可能性がある
中国企業に対するHopper GPU規制があったはずではないかと混乱する。米国の制裁にもかかわらず、H100にアクセスできたと認めているのだろうか？
AIでFlashゲームを復活させられることを本当に願っていた
これで何ができるのだろう？
OpenAIが戻ってきた

xguru 2025-02-24

FlashAttention-2: より優れた並列処理とタスク分割によりさらに高速化された Attention
FlashAttention-3: 非同期処理と低精度により高速かつ正確になった Attention

DeepSeek、FlashMLAをオープンソース公開（1/5）

関連記事

2件のコメント

Hacker Newsの意見