1 ポイント 投稿者 GN⁺ 2025-05-06 | 1件のコメント | WhatsAppで共有
  • MVDRAMは、無改造のDRAMを使用して低ビットLLM推論向けのGeMV演算を高速化するシステム
  • DRAMをGeMVエンジンとして活用し、高いスループットを提供
  • 従来のPUDアプローチにおける入力の事前配列と出力ビット変換のコストを排除
  • 実験の結果、低ビットLLMでプロセッサベース実装より優れた性能を示した
  • AIハードウェアの新たな可能性を提示

MVDRAM: 無改造DRAMを活用した低ビットLLM高速化

  • GeMV演算は、大規模言語モデル(LLM)推論における重要なレイテンシボトルネックとして依然残っている
  • Processing-Using-DRAM (PUD) は、DRAMをGeMVエンジンとして再利用できる可能性を持つ
  • しかし、PUDをLLM推論パイプラインに適用すると大きなオーバーヘッドが発生する

MVDRAMの革新的アプローチ

  • MVDRAMは、データ共有パターン数学的線形性を活用して、プロセッサとDRAMを協調動作させる
  • 従来のPUDアプローチのコストを排除し、GeMV演算を高速化する

実験結果

  • 4つのDDR4 DRAMモジュールを用いた実験で、MVDRAMは低ビット(4ビット以下)LLMにおいてプロセッサベース実装より優れた性能を示した
  • 最大7.29倍の高速化と30.5倍のエネルギー効率を達成した

LLM推論全体の改善

  • 2ビットおよび4ビット量子化の低ビットモデルで、それぞれ2.18倍および1.31倍のスループット向上を示した
  • エネルギー効率もそれぞれ3.04倍および2.35倍向上した

AIハードウェアの新たな可能性

  • MVDRAMは、標準DRAMをLLMアクセラレータとして活用できる可能性を実証した
  • AIハードウェアの新たな地平を開く潜在力を持つ

1件のコメント

 
GN⁺ 2025-05-06
Hacker Newsのコメント
  • DRAM内演算に関する初期提案の1つについての情報がある

    • 市販部品を使った最初の実演がある
    • DRAM Benderというツールを使って実装している
    • DRAM内処理の最近の進展に関する論文がある
  • 参考文献1と3の著者一覧が非常に長い点に気づいた人がいる

    • 2016年の記事への期待があったが含まれていない
    • 2019年の記事は含まれている
    • DRAMの仕様外の挙動、特にコピー機能は悪名高いバグと関係している
  • DRAMコマンドを意図的にメーカー指定のタイミングパラメータに違反して発行することで、大規模な並列処理を達成できる

    • DRAMトレーニング用のバイナリブロブに関する課題である
  • このアイデアは非常に独創的で創造的である

    • 細部に取り組むことはやりがいがあるかもしれない
  • ハードウェアの世界ではバグを利用することは危険になりうる

    • ソフトウェアの世界では、プラットフォームのバグを利用して機能を有効化するのは望ましくない
    • バグが修正されると、システムが予期せず動作する可能性がある
  • DRAM自体で行列演算を実行している

    • とても興味深く驚くべきアイデアである
  • 一般行列ベクトル積(GeMV)への言及がある

    • 数学的理解が不足している人もいる
    • クォータニオンは行列より計算量が少ないため人気を集めた
    • クォータニオンを使ってLLMを構築した事例があるのか気にする人もいる
  • 1997年の元のIntelligent RAM(IRAM)の出典を引用していないのは非科学的だと指摘する意見がある

  • 行列積やその他の演算が従来のCPUからDRAMへ移る可能性があるのか気にする人がいる

    • このような処理移行がSamsungなどに利点をもたらすのかという疑問がある
    • NVIDIAなどはどうなるのか気になっている
  • 大規模LLM向けの安価な推論装置を作るための優れた方法になりうる