- MVDRAMは、無改造のDRAMを使用して低ビットLLM推論向けのGeMV演算を高速化するシステム
- DRAMをGeMVエンジンとして活用し、高いスループットを提供
- 従来のPUDアプローチにおける入力の事前配列と出力ビット変換のコストを排除
- 実験の結果、低ビットLLMでプロセッサベース実装より優れた性能を示した
- AIハードウェアの新たな可能性を提示
MVDRAM: 無改造DRAMを活用した低ビットLLM高速化
- GeMV演算は、大規模言語モデル(LLM)推論における重要なレイテンシボトルネックとして依然残っている
- Processing-Using-DRAM (PUD) は、DRAMをGeMVエンジンとして再利用できる可能性を持つ
- しかし、PUDをLLM推論パイプラインに適用すると大きなオーバーヘッドが発生する
MVDRAMの革新的アプローチ
- MVDRAMは、データ共有パターンと数学的線形性を活用して、プロセッサとDRAMを協調動作させる
- 従来のPUDアプローチのコストを排除し、GeMV演算を高速化する
実験結果
- 4つのDDR4 DRAMモジュールを用いた実験で、MVDRAMは低ビット(4ビット以下)LLMにおいてプロセッサベース実装より優れた性能を示した
- 最大7.29倍の高速化と30.5倍のエネルギー効率を達成した
LLM推論全体の改善
- 2ビットおよび4ビット量子化の低ビットモデルで、それぞれ2.18倍および1.31倍のスループット向上を示した
- エネルギー効率もそれぞれ3.04倍および2.35倍向上した
AIハードウェアの新たな可能性
- MVDRAMは、標準DRAMをLLMアクセラレータとして活用できる可能性を実証した
- AIハードウェアの新たな地平を開く潜在力を持つ
1件のコメント
Hacker Newsのコメント
DRAM内演算に関する初期提案の1つについての情報がある
参考文献1と3の著者一覧が非常に長い点に気づいた人がいる
DRAMコマンドを意図的にメーカー指定のタイミングパラメータに違反して発行することで、大規模な並列処理を達成できる
このアイデアは非常に独創的で創造的である
ハードウェアの世界ではバグを利用することは危険になりうる
DRAM自体で行列演算を実行している
一般行列ベクトル積(GeMV)への言及がある
1997年の元のIntelligent RAM(IRAM)の出典を引用していないのは非科学的だと指摘する意見がある
行列積やその他の演算が従来のCPUからDRAMへ移る可能性があるのか気にする人がいる
大規模LLM向けの安価な推論装置を作るための優れた方法になりうる