PowerInfer - コンシューマー向けGPUを使ってLLMを高速にサービングする
(github.com/SJTU-IPADS)- RTX 4090(24G)で Falcon(ReLU)-40B-FP16 を実行した場合、llama.cpp より 11倍高速
- デバイスの Activation Locality を活用する CPU/GPU ハイブリッド LLM 推論エンジン
- 一貫して活性化される一部のホットニューロンと、特定の入力に応じて変化する大多数のコールドニューロンに区分
- ホットニューロンは GPU に事前ロードして高速に活性化し、コールドニューロンは CPU で計算することで、GPU メモリ要件と CPU-GPU 間のデータ転送を大幅に削減
- 適応型予測器とニューロン認識スパース演算子を統合し、ニューロン活性化と計算スパース性の効率を最適化
- 単一の NVIDIA RTX 4090 GPU で、さまざまな LLM(OPT-175B を含む)にわたり平均 13.20 トークン/秒、最高 29.08 トークン/秒のトークン生成速度を達成
- これは最上位サーバー級 A100 GPU が達成した数値よりわずか 18% 低いだけ
- モデル精度を維持しながら、最大 11.69倍まで llama.cpp の性能を大きく上回る
1件のコメント
4090はコンシューマ向けではありますよね(笑).....