- 3090/4090のようなGPUでローカルLLMを実行するよう設計された推論ライブラリ
- 初期リリースであり、コードはまだテスト段階にあり、一部の主要機能はまだ実装されていない
- V1と比べて、ExLlamaV2はより高速で優れたカーネル、よりクリーンで多様なコードベース、そして新しい量子化形式をサポート
- CUDA関数についてはTorch C++拡張に依存しており、これは実行時にコンパイルされる。ライブラリが最初に使用される際は10〜20秒かかるが、拡張はその後の使用のためにキャッシュされる
- V1と同じ4ビットGPTQモデルをサポートするが、モデル内で量子化レベルを混在させて2ビットから8ビットの間の平均ビットレートを達成できる新しい"EXL2"形式もサポート
- 量子化のためのパラメータ選択は自動で行われ、モデルを量子化するためのスクリプトが提供される
- また、いくつかのEXL2量子化モデルがHuggingFaceにアップロードされており、ユーザーが試すことができると述べられている
- 今後の計画には、事前ビルド済み拡張機能付きのPyPiパッケージ、LoRAサポート、サンプルWeb UI、Webサーバー、そしてより多くのサンプラーが含まれる
1件のコメント
Hacker Newsの意見