コンシューマー向けGPUを搭載したPCでの高速大規模言語モデルサービング
(github.com/SJTU-IPADS)PowerInfer: コンシューマー向けGPUを使った高速大規模言語モデルサービング
- PowerInferは、活性化の局所性を活用する CPU/GPU LLM 推論エンジン。
- PowerInfer と llama.cpp は同一ハードウェア上で動作し、RTX 4090 の VRAM を完全に活用。
概要
- PowerInfer は、個人向けコンピュータ(PC)に搭載された単一のコンシューマー向け GPU で大規模言語モデル(LLM)推論を高速に実行するエンジン。
- PowerInfer の設計基盤は、LLM 推論で現れる高い局所性を活用することにあり、ニューロン活性化におけるべき乗則分布を特徴とする。
- この分布は、少数の「ホット」ニューロンが一貫して活性化され、大多数の「コールド」ニューロンは入力に応じて変化することを示す。
- PowerInfer はこの洞察を活用して GPU-CPU ハイブリッド推論エンジンを設計しており、「ホット」ニューロンは GPU に事前ロードされ、「コールド」ニューロンは CPU で計算されるため、GPU メモリ要件と CPU-GPU データ転送を大幅に削減する。
- PowerInfer は適応型予測器とニューロン認識スパース演算子を統合し、ニューロン活性化と計算スパース性の効率を最適化する。
- 評価の結果、PowerInfer は単一の NVIDIA RTX 4090 GPU でさまざまな LLM(例: OPT-175B)に対して平均 13.20 トークン/秒、最大 29.08 トークン/秒のトークン生成率を達成し、サーバー級の A100 GPU と比べて 18% 低い性能を示した。
- モデル精度を維持しながら、llama.cpp より最大 11.69 倍高速な性能を示す。
特徴
-
局所性中心の設計: 効率的な LLM 推論のためにスパース活性化と「ホット」/「コールド」ニューロンの概念を活用し、低いリソース要求で高速性を確保。
-
ハイブリッド CPU/GPU 活用: CPU と GPU のメモリ/計算能力をシームレスに統合し、バランスの取れたワークロードと高速処理を実現。
-
容易な統合: 人気の ReLU スパースモデルと互換。
-
ローカル配備の容易さ: コンシューマー向けハードウェアでのローカル配備に深く最適化されており、単一 GPU で低レイテンシの LLM 推論およびサービングが可能。
-
後方互換性: llama.cpp とは異なるが、サーバーやバッチ生成など、ほとんどの
examples/は llama.cpp のように利用できる。
はじめに
- インストールおよびモデル重みの案内を提供。
設定とインストール
- コードの取得方法とビルド方法を案内。
モデル重み
- PowerInfer モデルは、LLM 重みと予測器重みを含む PowerInfer GGUF 形式で保存される。
- Hugging Face を通じて PowerInfer GGUF 重みをダウンロード可能。
- 元のモデル重みと予測器重みを PowerInfer GGUF に変換する方法を案内。
推論
- CPU のみを使用する場合や、利用可能なすべての VRAM を使う CPU-GPU ハイブリッド推論のためのガイドを提供。
量子化
- INT4(
Q4_0) モデルに対する最適化された量子化のサポートと使用方法を案内。
評価
- PowerInfer は FP16 および INT4 モデルに対して最大 11 倍および 8 倍の高速化を達成。
よくある質問
CUDA_ERROR_OUT_OF_MEMORYエラーの解決方法や、その他のトラブルシューティングのためのサポート案内。
今後の予定
- PowerInfer の中核コード、Mistral-7B モデル、Windows 対応、text-generation-webui、perplexity 評価コード、Mac 向け Metal 対応、OPT モデルコード、予測器学習コード、FFN ネットワークのオンライン分割、Multi-GPU 対応などの公開計画を案内。
論文と引用
- PowerInfer に関する技術的な詳細は論文で確認可能。
- PowerInfer が有用であったり、関連プロジェクトや研究に役立った場合は論文の引用を依頼。
謝辞
- 修正可能な演算子ライブラリ ggml と llama.cpp の実行ランタイムに感謝。
- ReLU ベースのスパースモデルに対する THUNLP の支援に感謝。
- PowerInfer に着想を与えた Deja Vu 研究に感謝。
GN⁺の意見
- PowerInfer は、コンシューマー向け GPU を使用して大規模言語モデルを高速かつ効率的に推論できる革新的なエンジン。
- 「ホット」/「コールド」ニューロンの概念とハイブリッド CPU/GPU 活用により、リソースを節約しながらもサーバー級性能に近い推論速度を提供する。
- この技術は、AI 研究および開発において、個人開発者や小規模チームがサーバー級ハードウェアにアクセスしなくても高性能モデルを実験・配備できる機会を開く。
まだコメントはありません。