LLaMA: INT8 エディション
(github.com/tloen)- MetaのLLaMA-13Bを24 GiB RAMだけで動かせるフォーク版
- つまり、RTX4090/3090を1台だけで運用可能
- 理論上、LLaMA-65Bを80GB A100 1枚で運用可能
- 変更点
- 並列処理構造体の削除
- ホストマシン上のWeightsを量子化
- メモリ問題を防ぐため、Weightsを段階的にロード
bitsandbytesとtqdmを使用- 反復ペナルティ設定(デフォルト値 1.15)
- RTX4090 + 64GB Ubuntuマシンでモデルのロードと量子化に約25秒
まだコメントはありません。