PowerInfer - コンシューマー向けGPUを使ってLLMを高速にサービングする

xguru · 2023-12-21T10:51:02+09:00

RTX 4090(24G)で Falcon(ReLU)-40B-FP16 を実行した場合、llama.cpp より 11倍高速デバイスの Activation Locality を活用する CPU/GPU ハイブリッド LLM 推論エンジン一貫して活性化される一部のホットニューロンと、特定の入力に応じて変化する大多数のコールドニューロンに区分ホットニューロンは GPU に事前ロードして高速に活性化し、コールドニューロンは CPU で計算することで、GPU メモリ要件と CPU-GPU 間のデータ転送を大幅に削減適応型予測器とニューロン認識スパース演算子を統合し、ニューロン活性化と計算スパース性の効率を最適化単一の NVIDIA RTX 4090 GPU で、さまざまな LLM（OPT-175B を含む）にわたり平均 13.20 トークン/秒、最高 29.08 トークン/秒のトークン生成速度を達成これは最上位サーバー級 A100 GPU が達成した数値よりわずか 18% 低いだけモデル精度を維持しながら、最大 11.69倍まで llama.cpp の性能を大きく上回る

(github.com/SJTU-IPADS)

16 ポイント投稿者 xguru 2023-12-21 | 1件のコメント | WhatsAppで共有

RTX 4090(24G)で Falcon(ReLU)-40B-FP16 を実行した場合、llama.cpp より 11倍高速
デバイスの Activation Locality を活用する CPU/GPU ハイブリッド LLM 推論エンジン
- 一貫して活性化される一部のホットニューロンと、特定の入力に応じて変化する大多数のコールドニューロンに区分
- ホットニューロンは GPU に事前ロードして高速に活性化し、コールドニューロンは CPU で計算することで、GPU メモリ要件と CPU-GPU 間のデータ転送を大幅に削減
適応型予測器とニューロン認識スパース演算子を統合し、ニューロン活性化と計算スパース性の効率を最適化
単一の NVIDIA RTX 4090 GPU で、さまざまな LLM（OPT-175B を含む）にわたり平均 13.20 トークン/秒、最高 29.08 トークン/秒のトークン生成速度を達成
- これは最上位サーバー級 A100 GPU が達成した数値よりわずか 18% 低いだけ
- モデル精度を維持しながら、最大 11.69倍まで llama.cpp の性能を大きく上回る

1件のコメント

cosine20 2023-12-28

4090はコンシューマ向けではありますよね（笑）.....

PowerInfer - コンシューマー向けGPUを使ってLLMを高速にサービングする

関連記事

1件のコメント