- DFloat11は、大規模言語モデル(LLM)のサイズを30%削減しながら、元のモデルとビット単位で同一の出力を維持する損失なし圧縮フレームワークである
- BFloat16重み表現の低エントロピーを活用し、既存の保存形式の非効率性を改善する
- GPUでの効率的な推論のためにカスタムGPUカーネルを開発し、高速なオンライン伸長をサポートする
- Llama-3.1、Qwen-2.5、Gemma-3などの最新モデルでの実験を通じて、30%のモデルサイズ削減と正確な出力維持を検証した
- 固定GPUメモリ予算で、非圧縮モデルより5.3〜13.17倍長いコンテキスト長を可能にする
70%のサイズ、100%の正確性:効率的なGPU推論のための損失なしLLM圧縮
- 大規模言語モデル(LLM)のサイズが急速に増大しており、リソース制約のあるハードウェアでの効率的な展開にとって大きな課題となっている
- **Dynamic-Length Float (DFloat11)**は、LLMのサイズを30%削減しながら、ビット単位で同一の出力を維持する損失なし圧縮フレームワークである
- BFloat16重み表現の低エントロピーを活用し、既存の保存形式の非効率性を改善する
- エントロピー符号化を適用し、出現頻度に応じて重みに動的長のエンコーディングを割り当てることで、情報理論的に最適な圧縮を実現する
- 効率的な推論のためにカスタムGPUカーネルを開発し、高速なオンライン伸長をサポートする
DFloat11の設計
- メモリ集約的なルックアップテーブル(LUT)を、GPU SRAMに収まる圧縮LUTへ分解する
- 軽量な補助変数を用いてスレッドの読み取り/書き込み位置を調整する2段階カーネルを開発した
- Transformerブロックレベルの伸長により、レイテンシを最小化する
実験結果
- Llama-3.1、Qwen-2.5、Gemma-3などの最新モデルで、DFloat11が30%のモデルサイズ削減と正確な出力維持を実証した
- 非圧縮モデルの一部をCPUへオフロードする代替案と比較して、1.9〜38.8倍高いスループットを達成した
- 固定GPUメモリ予算で、非圧縮モデルより5.3〜13.17倍長いコンテキスト長を可能にする
DFloat11の利点
- Llama-3.1-405B、810GBモデルを、8x80GB GPUを搭載した単一ノード上で損失なし推論可能にする
- コードとモデルは公開URLで提供される
1件のコメント
Hacker Newsのコメント
bfloat16の高い動的範囲はほとんど使われていない
405Bパラメータモデルを単一ノードで実行できる可能性
ML/Transformerモデルの急速な進歩に感謝
重み形式の争いが終われば、ハードウェアがこれをサポートできるようになるだろう
実際のエージェント利用ケースでは、品質・コスト・性能のバランスを取るのが難しい
xmad.aiで働いている
技術進歩の速度が速い
DFloat11は、非圧縮モデルをCPUへオフロードする場合より1.9〜38.8倍高いスループットを提供する
LLMはメモリ帯域幅によって制約されているのか気になる
LLMを使って画像をさらに圧縮する方法を発見した
ZipNNとどう違うのか気になる
二進法の代わりに三進法を使えば、より高い圧縮率を得られると思う