llama.cpp に完全な CUDA GPU アクセラレーションを追加

(github.com/ggerganov)

8 ポイント投稿者 xguru 2023-06-14 | まだコメントはありません。 | WhatsAppで共有

残っているすべての ggml テンソルに GPU アクセラレーションを追加する PR
RTX 3090 では、プロンプト処理は 2 倍、トークン生成は 1.3〜1.8 倍まで高速化
4090+i9 では、7B q4 モデルで毎秒 109 トークンを生成

まだコメントはありません。

まだコメントはありません。