- Metaはモバイル端末で実行可能な軽量な量子化版 Llama モデルを公開
- 8K以下の短いコンテキストのアプリケーション向けに最適化
- 量子化モデルは2〜4倍の速度向上、モデルサイズ56%削減、メモリ使用量41%削減を達成。
- 量子化手法
- Llama 3.2 1Bおよび3Bモデルに対して、Quantization-Aware Training(QAT)とSpinQuant手法を使用。
- QATは精度を、SpinQuantは移植性を優先。
- PyTorchのExecuTorchフレームワークを通じて、両方の量子化手法をサポート。
- モバイル端末向け最適化
- QualcommおよびMediaTek SoCで実行できるよう設計。
- AndroidのOnePlus 12でのテストでは、モデルサイズとメモリ使用量が大幅に減少。
- モバイルCPUとNPUを活用して性能を最適化。
- 量子化設定
- PyTorchのExecuTorch推論フレームワークとArm CPUバックエンドを考慮して設計。
- すべての線形レイヤーを4ビットのグループ単位で量子化し、アクティベーションには8ビット動的量子化を使用。
- 量子化対応学習(QAT)とLoRA
- Llama 3.2モデルの学習中に量子化の効果をシミュレーションするQATを用い、低精度環境での性能を最適化
- QAT初期化のためにBF16 Llama 3.2モデルのチェックポイントを活用し、QATによる追加のSFT学習を実施
- QATモデルのバックボーンを固定し、LoRAアダプターを適用したままSFTをさらに1回実施
- torchao APIを使用してQATを実行
- SpinQuant
- QAT + LoRAより精度は低いものの、データセットにアクセスせずに動作できるため移植性に優れる。
- さまざまなハードウェアターゲットやユースケースに合わせてモデルを量子化可能。
- 結果
- QLoRA方式があらゆる面で最も優れた品質を示す
- BF16比でデコード遅延は平均2.5倍、プリフィル遅延は4.2倍改善
- モデルサイズは平均56%減少、メモリ使用量は41%減少
- AndroidのOnePlus 12端末で測定され、iOS端末では精度は同等だが性能は評価されていない
GN⁺のまとめ
- Metaの量子化版 Llama モデルは、モバイル端末上での実行に向けた軽量化と性能最適化を目指している
- QATとSpinQuant手法により、精度と移植性の両方を考慮した量子化モデルを提供
- モバイルCPUとNPUを活用して性能を最大化し、さまざまなハードウェアでの利用をサポート
- さまざまなモバイルプラットフォームやパートナー企業との緊密な協業により、実製品へ適用可能なレベルのソリューションを提供しているようだ
- MetaのLlamaモデルは、オープン性、改変のしやすさ、コスト効率の面で競争力があると評価されており、継続的な革新によってモバイルで強力なAI体験を提供すると期待される
まだコメントはありません。