SlowLlama - Llama2-70b と CodeLlama を M1/M2 で量子化なしにファインチューニング
(github.com/okuvshynov)- Apple M1/M2 およびコンシューマー向け nVidia GPU で Llama2-70B のようなモデルをファインチューニング
- 量子化(quantization)を使う代わりに、フォワード/バックワードパスの両方でモデルの一部を SSD またはメインメモリにオフロードする方式
- 現在のバージョンでは LoRA を使用して、更新をより小さいパラメータセットに制限
- 最初のバージョンでは完全なファインチューニングも可能だったが、現在は削除
まだコメントはありません。