SlowLlama - Llama2-70b と CodeLlama を M1/M2 で量子化なしにファインチューニング

xguru · 2023-10-09T10:32:01+09:00

Apple M1/M2 およびコンシューマー向け nVidia GPU で Llama2-70B のようなモデルをファインチューニング量子化（quantization）を使う代わりに、フォワード/バックワードパスの両方でモデルの一部を SSD またはメインメモリにオフロードする方式現在のバージョンでは LoRA を使用して、更新をより小さいパラメータセットに制限最初のバージョンでは完全なファインチューニングも可能だったが、現在は削除

(github.com/okuvshynov)

9 ポイント投稿者 xguru 2023-10-09 | まだコメントはありません。 | WhatsAppで共有

Apple M1/M2 およびコンシューマー向け nVidia GPU で Llama2-70B のようなモデルをファインチューニング
量子化（quantization）を使う代わりに、フォワード/バックワードパスの両方でモデルの一部を SSD またはメインメモリにオフロードする方式
現在のバージョンでは LoRA を使用して、更新をより小さいパラメータセットに制限
- 最初のバージョンでは完全なファインチューニングも可能だったが、現在は削除

SlowLlama - Llama2-70b と CodeLlama を M1/M2 で量子化なしにファインチューニング

関連記事

まだコメントはありません。