ExLlamaV2: 一般的なGPUでローカルLLMを実行するための高速推論ライブラリ

(github.com/turboderp)

3 ポイント投稿者 GN⁺ 2023-09-14 | 1件のコメント | WhatsAppで共有

3090/4090のようなGPUでローカルLLMを実行するよう設計された推論ライブラリ
初期リリースであり、コードはまだテスト段階にあり、一部の主要機能はまだ実装されていない
V1と比べて、ExLlamaV2はより高速で優れたカーネル、よりクリーンで多様なコードベース、そして新しい量子化形式をサポート
CUDA関数についてはTorch C++拡張に依存しており、これは実行時にコンパイルされる。ライブラリが最初に使用される際は10〜20秒かかるが、拡張はその後の使用のためにキャッシュされる
V1と同じ4ビットGPTQモデルをサポートするが、モデル内で量子化レベルを混在させて2ビットから8ビットの間の平均ビットレートを達成できる新しい"EXL2"形式もサポート
量子化のためのパラメータ選択は自動で行われ、モデルを量子化するためのスクリプトが提供される
また、いくつかのEXL2量子化モデルがHuggingFaceにアップロードされており、ユーザーが試すことができると述べられている
今後の計画には、事前ビルド済み拡張機能付きのPyPiパッケージ、LoRAサポート、サンプルWeb UI、Webサーバー、そしてより多くのサンプラーが含まれる

1件のコメント

GN⁺ 2023-09-14

Hacker Newsの意見

記事では、一般向けGPUで言語モデル（LLM）を実行できるようにする新しい推論ライブラリ ExLlamaV2 について議論しています。
これは、大規模LLMが一般向けGPU上で競争力のある速度で動作できる最初の時期であり、GPT-3.5-turbo や GPT-4 を上回る可能性があります。
このライブラリは、パラメータを調整しつつパープレキシティを最小限に抑えるために、異なる層やモジュールを量子化する独自の方法を使用しています。
3090 や 4090 など、異なるGPUの性能比較や、それらがどのように異なるモデルを扱うのかに関心が集まっています。
記事では、初期段階の ROCm サポート追加にも触れており、RTX4090/3090 が 7900 シリーズと比べてどうなのかという興味を呼んでいます。
読者は、速度比較や、大規模モデルが最上位 Nvidia カードのような高性能ハードウェア上でどのように動作するのかに関心を持っています。
メモリ上で動作させるために複数枚のカードが必要なモデルの性能についての疑問があります。
記事は、"Local LLaMA" というサブレディットでリリースに関する議論を引き起こしました。
読者は、モデルを単一ビット幅にまで縮小した場合の影響や、それでも機能するのか、それとも支離滅裂な出力になるのかを気にしています。
ELX2 のコストとパープレキシティのベンチマークに関する質問があり、Facebook が llama v2 を 65B ではなく 70B にしたことへの不満も一部あります。
読者は EXL2/GPTQ 量子化についてさらに多くの情報を探しており、これがこのモデルでの速度向上の主因であるように見えます。
"70B Llama 2" と ChatGPT 3.5/4.0 の比較も行われており、それぞれの相対的な性能について疑問が出ています。

ExLlamaV2: 一般的なGPUでローカルLLMを実行するための高速推論ライブラリ

関連記事

1件のコメント

Hacker Newsの意見