8 ポイント 投稿者 xguru 2023-03-10 | まだコメントはありません。 | WhatsAppで共有
  • MetaのLLaMA-13Bを24 GiB RAMだけで動かせるフォーク版
    • つまり、RTX4090/3090を1台だけで運用可能
  • 理論上、LLaMA-65Bを80GB A100 1枚で運用可能
  • 変更点
    • 並列処理構造体の削除
    • ホストマシン上のWeightsを量子化
    • メモリ問題を防ぐため、Weightsを段階的にロード
    • bitsandbytestqdm を使用
    • 反復ペナルティ設定(デフォルト値 1.15)
  • RTX4090 + 64GB Ubuntuマシンでモデルのロードと量子化に約25秒

まだコメントはありません。

まだコメントはありません。