llama.cpp - FacebookのLLaMAモデルを純粋なC/C++で推論

xguru · 2023-03-13T11:26:01+09:00

MacBookでLLaMAモデルを4-bit量子化して実行することを目標依存関係のない純粋なC/C++実装 Arm Neon/Accelerateフレームワーク向けに最適化（Apple Silicon） x86向けAVX2対応混合F16/F32精度 4-bit quntization対応 CPUで実行現在はMac/Linuxのみ対応。Windows対応予定

(github.com/ggerganov)

16 ポイント投稿者 xguru 2023-03-13 | 1件のコメント | WhatsAppで共有

MacBookでLLaMAモデルを4-bit量子化して実行することを目標
依存関係のない純粋なC/C++実装
Arm Neon/Accelerateフレームワーク向けに最適化（Apple Silicon）
x86向けAVX2対応
混合F16/F32精度
4-bit quntization対応
CPUで実行
現在はMac/Linuxのみ対応。Windows対応予定

1件のコメント

laeyoung 2023-03-14

7Bモデルを動かしてみたけど、思ったよりうまく動きますね

llama.cpp - FacebookのLLaMAモデルを純粋なC/C++で推論

関連記事

1件のコメント