LLaMA: INT8 エディション

xguru · 2023-03-10T11:02:01+09:00

MetaのLLaMA-13Bを24 GiB RAMだけで動かせるフォーク版つまり、RTX4090/3090を1台だけで運用可能理論上、LLaMA-65Bを80GB A100 1枚で運用可能変更点並列処理構造体の削除ホストマシン上のWeightsを量子化メモリ問題を防ぐため、Weightsを段階的にロード bitsandbytes と tqdm を使用反復ペナルティ設定（デフォルト値 1.15） RTX4090 + 64GB Ubuntuマシンでモデルのロードと量子化に約25秒

(github.com/tloen)

8 ポイント投稿者 xguru 2023-03-10 | まだコメントはありません。 | WhatsAppで共有

MetaのLLaMA-13Bを24 GiB RAMだけで動かせるフォーク版
- つまり、RTX4090/3090を1台だけで運用可能
理論上、LLaMA-65Bを80GB A100 1枚で運用可能
変更点
- 並列処理構造体の削除
- ホストマシン上のWeightsを量子化
- メモリ問題を防ぐため、Weightsを段階的にロード
- bitsandbytes と tqdm を使用
- 反復ペナルティ設定（デフォルト値 1.15）
RTX4090 + 64GB Ubuntuマシンでモデルのロードと量子化に約25秒

LLaMA: INT8 エディション

関連記事

まだコメントはありません。