Llama.cppのモデル重み込み速度を10〜100倍改善
(github.com/ggerganov)- ファイルフォーマットの変更により
read()なしでmmap()が可能になり、重みの読み込み速度が10〜100倍高速化 - 単一ファイルの7Bやマルチファイルの13Bなどにも対応し、読み込みコードが大幅にシンプルに
- また、この変更によりテンソルが32バイト境界でアラインされるため、特定のプロセッサでは追加の性能向上も期待できる
read() なしで mmap() が可能になり、重みの読み込み速度が10〜100倍高速化
1件のコメント
LLaMA - Metaが公開した65bパラメータLLM
llama.cpp - FacebookのLLaMAモデルを純粋なC/C++で推論する