5 ポイント 投稿者 xguru 2025-02-24 | 2件のコメント | WhatsAppで共有
  • Hopper GPU向けの効率的なMLAデコーディングカーネル
  • 可変長シーケンスのサービング向けに最適化済み
  • 現在リリースされているもの
    • BF16
    • 64ブロックサイズのPaged kvcache
  • ベンチマーク: CUDA 12.6を使用し、H800 SXM5でメモリバウンド構成では最大3000GB/s、演算バウンド構成では580 TFLOPSを達成
  • FlashAttention 2&3cutlass から着想を得ている
  • DeepSeek Open Infraとして公開される5つのオープンソース のうち最初の項目

2件のコメント

 
GN⁺ 2025-02-25

Hacker Newsの意見

  • vLLMは3週間前からDeepSeekモデル向けのMLAをサポートし始めていた。これにより、3倍高い生成スループットと10倍のトークンメモリ容量を提供する
    • MHAは依然として低QPS環境ではより高速
    • 理論的な根拠によれば、同一のKVキャッシュオーバーヘッドにおいて、MLAはGQAより一貫して高い表現力を提供する
    • 広く使われているGQAベースの事前学習モデル(LLaMA、Qwen、Mixtralなど)をMLAベースのモデルに変換可能
    • MLAが標準になる可能性が高い
  • DeepSeek R1が標準のMHAを使っていた場合、KVキャッシュ保存のためにトークン当たり1749KBが必要だったはず
    • 会話が約46,000トークンに達すると、KVキャッシュが単一のH100の全保存容量を超えることになる
    • MLAを使えば各トークンは125KBを消費する。これは約640,000トークン(Ulyssesの2倍)を超えるまで可能
  • BF16対応、ページドKVキャッシュ(ブロックサイズ64)、H800で3000 GB/sのメモリバウンドおよび580 TFLOPSのコンピュートバウンド
    • 多くのFANG開発者がこれによってかなりの時間を節約できただろう
    • 惜しいのは前方パスしかサポートしていない点。本当の秘密は逆方向パスにあった
    • デュアルパイプスケジューラをどう実装したのか気になっていた
  • MLAはおそらくMulti-head latent attentionを意味している可能性がある
  • 中国企業に対するHopper GPU規制があったはずではないかと混乱する。米国の制裁にもかかわらず、H100にアクセスできたと認めているのだろうか?
  • AIでFlashゲームを復活させられることを本当に願っていた
  • これで何ができるのだろう?
  • OpenAIが戻ってきた