13 ポイント 投稿者 xguru 2023-05-02 | 1件のコメント | WhatsAppで共有
  • 整数量子化(integer quantization)をサポート: ggml Whisperモデルで、デフォルトの16bit浮動小数点重みを4、6、8bit整数重みに変換可能
    • ディスクサイズとメモリ使用量を削減し、一部アーキテクチャでより高速に実行可能
    • llama.cppプロジェクトに貢献されたコードによって実現
  • cuBLASを利用したNVIDIA GPUサポート