FlexGen - ChatGPTのようなLLMをシングルGPUで運用

xguru · 2023-02-22T10:16:02+09:00

16GB T4 / 24GB RTX3090 のような制約のあるGPU環境でLLMを運用するための高性能生成エンジン約100倍にもなる非常に高速なオフロードにより、175BモデルをシングルGPUで運用可能パラメータとアテンションキャッシュを可能な限り圧縮（精度低下がほとんどない4ビットまで低減）分散並列ランタイムにより、GPU追加時にも容易にスケール可能

(github.com/FMInference)

14 ポイント投稿者 xguru 2023-02-22 | まだコメントはありません。 | WhatsAppで共有

16GB T4 / 24GB RTX3090 のような制約のあるGPU環境でLLMを運用するための高性能生成エンジン
約100倍にもなる非常に高速なオフロードにより、175BモデルをシングルGPUで運用可能
パラメータとアテンションキャッシュを可能な限り圧縮（精度低下がほとんどない4ビットまで低減）
分散並列ランタイムにより、GPU追加時にも容易にスケール可能

FlexGen - ChatGPTのようなLLMをシングルGPUで運用

関連記事

まだコメントはありません。