LLaMA-CPU - CPUでLLaMAを実行するフォーク (github.com/markasoftware) 4 ポイント 投稿者 xguru 2023-03-09 | まだコメントはありません。 | WhatsAppで共有 MetaのLLaMAモデルをCPUで実行 設定はほぼ同じ 7Bモデルでテストしたところ、読み込みには32GiB RAMでもスワップ/zramが必要 実際の推論時に使用するRAMは約20GiB以下 Ryzen 7900Xでは7Bモデルで1秒あたり数語の推論が可能 関連記事 LLaMA: INT8 エディション 8 ポイント · 0件のコメント · 2023-03-10 llama.cpp - FacebookのLLaMAモデルを純粋なC/C++で推論 16 ポイント · 1件のコメント · 2023-03-13 LLaMA.cppはなぜ可能なのか? 18 ポイント · 3件のコメント · 2023-08-16 ntransformer - 単一の RTX 3090 で Llama 3.1 70B を実行する NVMe-to-GPU 推論エンジン 15 ポイント · 1件のコメント · 2026-02-23 LLaMAモデルの簡単な歴史 20 ポイント · 0件のコメント · 2023-05-04 まだコメントはありません。 まだコメントはありません。
まだコメントはありません。