14 ポイント 投稿者 xguru 2023-02-22 | まだコメントはありません。 | WhatsAppで共有
  • 16GB T4 / 24GB RTX3090 のような制約のあるGPU環境でLLMを運用するための高性能生成エンジン
  • 約100倍にもなる非常に高速なオフロードにより、175BモデルをシングルGPUで運用可能
  • パラメータとアテンションキャッシュを可能な限り圧縮(精度低下がほとんどない4ビットまで低減)
  • 分散並列ランタイムにより、GPU追加時にも容易にスケール可能

まだコメントはありません。

まだコメントはありません。