16 ポイント 投稿者 xguru 2023-03-13 | 1件のコメント | WhatsAppで共有
  • MacBookでLLaMAモデルを4-bit量子化して実行することを目標
  • 依存関係のない純粋なC/C++実装
  • Arm Neon/Accelerateフレームワーク向けに最適化(Apple Silicon)
  • x86向けAVX2対応
  • 混合F16/F32精度
  • 4-bit quntization対応
  • CPUで実行
  • 現在はMac/Linuxのみ対応。Windows対応予定

1件のコメント

 
laeyoung 2023-03-14

7Bモデルを動かしてみたけど、思ったよりうまく動きますね