16 ポイント 投稿者 xguru 2023-12-21 | 1件のコメント | WhatsAppで共有
  • RTX 4090(24G)で Falcon(ReLU)-40B-FP16 を実行した場合、llama.cpp より 11倍高速
  • デバイスの Activation Locality を活用する CPU/GPU ハイブリッド LLM 推論エンジン
    • 一貫して活性化される一部のホットニューロンと、特定の入力に応じて変化する大多数のコールドニューロンに区分
    • ホットニューロンは GPU に事前ロードして高速に活性化し、コールドニューロンは CPU で計算することで、GPU メモリ要件と CPU-GPU 間のデータ転送を大幅に削減
  • 適応型予測器とニューロン認識スパース演算子を統合し、ニューロン活性化と計算スパース性の効率を最適化
  • 単一の NVIDIA RTX 4090 GPU で、さまざまな LLM(OPT-175B を含む)にわたり平均 13.20 トークン/秒、最高 29.08 トークン/秒のトークン生成速度を達成
    • これは最上位サーバー級 A100 GPU が達成した数値よりわずか 18% 低いだけ
    • モデル精度を維持しながら、最大 11.69倍まで llama.cpp の性能を大きく上回る

1件のコメント

 
cosine20 2023-12-28

4090はコンシューマ向けではありますよね(笑).....