DeepSeek、FlashMLAをオープンソース公開(1/5)
(github.com/deepseek-ai)- Hopper GPU向けの効率的なMLAデコーディングカーネル
- 可変長シーケンスのサービング向けに最適化済み
- 現在リリースされているもの
- BF16
- 64ブロックサイズのPaged kvcache
- ベンチマーク: CUDA 12.6を使用し、H800 SXM5でメモリバウンド構成では最大3000GB/s、演算バウンド構成では580 TFLOPSを達成
- FlashAttention 2&3 と cutlass から着想を得ている
- DeepSeek Open Infraとして公開される5つのオープンソース のうち最初の項目
2件のコメント
Hacker Newsの意見
FlashAttention-2: より優れた並列処理とタスク分割によりさらに高速化された Attention
FlashAttention-3: 非同期処理と低精度により高速かつ正確になった Attention