2 ポイント 投稿者 GN⁺ 2025-04-26 | 1件のコメント | WhatsAppで共有
  • DFloat11は、大規模言語モデル(LLM)のサイズを30%削減しながら、元のモデルとビット単位で同一の出力を維持する損失なし圧縮フレームワークである
  • BFloat16重み表現の低エントロピーを活用し、既存の保存形式の非効率性を改善する
  • GPUでの効率的な推論のためにカスタムGPUカーネルを開発し、高速なオンライン伸長をサポートする
  • Llama-3.1、Qwen-2.5、Gemma-3などの最新モデルでの実験を通じて、30%のモデルサイズ削減正確な出力維持を検証した
  • 固定GPUメモリ予算で、非圧縮モデルより5.3〜13.17倍長いコンテキスト長を可能にする

70%のサイズ、100%の正確性:効率的なGPU推論のための損失なしLLM圧縮

  • 大規模言語モデル(LLM)のサイズが急速に増大しており、リソース制約のあるハードウェアでの効率的な展開にとって大きな課題となっている
  • **Dynamic-Length Float (DFloat11)**は、LLMのサイズを30%削減しながら、ビット単位で同一の出力を維持する損失なし圧縮フレームワークである
  • BFloat16重み表現の低エントロピーを活用し、既存の保存形式の非効率性を改善する
  • エントロピー符号化を適用し、出現頻度に応じて重みに動的長のエンコーディングを割り当てることで、情報理論的に最適な圧縮を実現する
  • 効率的な推論のためにカスタムGPUカーネルを開発し、高速なオンライン伸長をサポートする

DFloat11の設計

  • メモリ集約的なルックアップテーブル(LUT)を、GPU SRAMに収まる圧縮LUTへ分解する
  • 軽量な補助変数を用いてスレッドの読み取り/書き込み位置を調整する2段階カーネルを開発した
  • Transformerブロックレベルの伸長により、レイテンシを最小化する

実験結果

  • Llama-3.1、Qwen-2.5、Gemma-3などの最新モデルで、DFloat11が30%のモデルサイズ削減正確な出力維持を実証した
  • 非圧縮モデルの一部をCPUへオフロードする代替案と比較して、1.9〜38.8倍高いスループットを達成した
  • 固定GPUメモリ予算で、非圧縮モデルより5.3〜13.17倍長いコンテキスト長を可能にする

DFloat11の利点

  • Llama-3.1-405B、810GBモデルを、8x80GB GPUを搭載した単一ノード上で損失なし推論可能にする
  • コードとモデルは公開URLで提供される

1件のコメント

 
GN⁺ 2025-04-26
Hacker Newsのコメント
  • bfloat16の高い動的範囲はほとんど使われていない

    • 人々は0.01のようなハイパーパラメータを好む
    • ネットワークのすべての要素を10^6倍しても大きな違いはない
    • bfloat16値の典型的なエントロピーは10〜12ビットである
    • 符号ビットと仮数ビットは圧縮できないノイズである
    • Martin Burtscherの研究室、LLNLのfpzip、Facebookのdietgpuなどで可逆圧縮技術が使われている
    • rANSはSIMD命令セットではHuffman符号化より効率的である
  • 405Bパラメータモデルを単一ノードで実行できる可能性

    • 研究所やスタートアップに大きな機会を提供する
  • ML/Transformerモデルの急速な進歩に感謝

    • llama.cppがcublasをうまく活用しているのか気になる
  • 重み形式の争いが終われば、ハードウェアがこれをサポートできるようになるだろう

    • 最適な重み形式に合わせた行列積ハードウェアが必要
  • 実際のエージェント利用ケースでは、品質・コスト・性能のバランスを取るのが難しい

    • dfloat11がコスト削減に役立つ可能性がある
  • xmad.aiで働いている

  • 技術進歩の速度が速い

    • 効率改善に興味を感じる
  • DFloat11は、非圧縮モデルをCPUへオフロードする場合より1.9〜38.8倍高いスループットを提供する

    • 固定されたGPUメモリ予算でより長いコンテキスト長を提供する
  • LLMはメモリ帯域幅によって制約されているのか気になる

  • LLMを使って画像をさらに圧縮する方法を発見した

    • 関連ホワイトペーパーを公開する予定である
  • ZipNNとどう違うのか気になる

    • ベースになっているのか、異なるのか、より優れているのかを理解しにくい
  • 二進法の代わりに三進法を使えば、より高い圧縮率を得られると思う