Gemma 3 QATモデル: 最先端AIをコンシューマーGPUへ導入
(developers.googleblog.com)- 先月発表された Gemma 3 は、最先端の性能を提供するオープンAIモデルであり、NVIDIA H100 のような 単一の高性能GPUでも実行可能
- QAT(Quantization-Aware Training) 手法を適用した 軽量版 を公開し、今では コンシューマー向けGPU でも実行可能に
- int4量子化 により メモリ使用量を大幅に削減 しつつ、性能低下を最小限に抑制
- QATモデルは RTX 3090、RTX 4060 など一般的なGPUでも実行可能 で、Hugging Face、Ollama、LM Studio などですぐに利用可能
- コミュニティ版の多様な PTQモデルもあわせて提供 され、柔軟に選択可能
Gemma 3 の紹介と性能概要
- Google が発表した最新のオープンモデル Gemma 3 は、優れた性能を持つ 大規模言語モデル
- BF16(16ビット浮動小数点)精度で NVIDIA H100 GPU上で実行可能 であり、卓越した Chatbot Arena Eloスコア を記録
- BF16を使う理由 はモデル間の性能比較を公平にするためで、さまざまな最適化手法を排した状態でモデル本来の性能を比較できる
アクセシビリティ向上のためのQATベース量子化
- 従来の大規模モデルは高性能なクラウド環境を必要としていたが、コンシューマー向けハードウェアでも実行可能にするため QAT手法を適用
- 量子化(Quantization) はモデル内部の数値精度を下げることで、メモリ使用量を減らし実行を高速化する
- 例: BF16 の代わりに int4 形式を使うと 4倍以上の圧縮効果 が生じる
QATを活用した品質維持
- 単純な後処理量子化ではなく、QAT(Quantization-Aware Training) 方式を用いて学習中に量子化を反映
- 学習過程では 約5,000ステップのあいだ非量子化チェックポイントの予測確率を目標値として使用
- この方式により Q4_0 量子化時に Perplexity低下率を54%削減する成果 を達成
VRAM使用量の画期的な削減
-
int4量子化によるVRAM削減 効果は大きく、モデル別の削減幅は以下のとおり:
- Gemma 3 27B: 54GB → 14.1GB
- Gemma 3 12B: 24GB → 6.6GB
- Gemma 3 4B: 8GB → 2.6GB
- Gemma 3 1B: 2GB → 0.5GB
-
これらの数値にはモデルの重みを読み込むのに必要なVRAMのみが含まれており、実行時に必要な KVキャッシュ は別途VRAMを必要とする
さまざまなデバイスで実行可能
- Gemma 3 27B (int4): RTX 3090 (24GB VRAM) でローカル実行可能
- Gemma 3 12B (int4): RTX 4060 Laptop (8GB VRAM) でも問題なく実行可能
- Gemma 3 4B、1B: スマートフォンや低スペック機器でも動作可能
容易な統合と利用
-
QATモデルは さまざまなプラットフォームやツールですぐに利用可能:
- Ollama: コマンド1行で実行
- LM Studio: GUI環境でダウンロードして実行
- MLX: Apple Silicon ベースで高効率な推論をサポート
- Gemma.cpp: CPU環境で高性能に実行
- llama.cpp: GGUFフォーマットで容易に統合
Gemmaverse のコミュニティモデル
- 公式QATモデルに加えて、多様なコミュニティPTQモデル も提供
- 主な貢献者: Bartowski、Unsloth、GGML
- 多様なモデルから 速度、サイズ、品質のバランスに応じて選択可能
今すぐ始められる
- AIの大衆化に向けた重要な一歩 として、Gemma 3 のQAT版は誰でもローカルで実行可能
- 実行方法:
- PC: Ollama
- モデルのダウンロード: Hugging Face, Kaggle
- モバイル実行: Google AI Edge を使用
1件のコメント
Hacker Newsの意見
gemma-3-27b-it-qat-4bitモデルは、Mistral Small 3.1 24B と並ぶ新たなお気に入りモデル個人的な「雰囲気チェック」の質問に対して、4bit QAT 27B モデルが正確な回答を返した
1つ目のグラフは BF16 精度での「Elo Score」の比較で、2つ目のグラフは VRAM 使用量の比較
qwen2.5の代わりにgemma3:27b-it-qatを使って、32G メモリの Mac で日常的な作業をこなしている16コアの AMD 3950x CPU で動かしており、翻訳と画像説明で非常に印象的
最新の QAT
gemma3:27bをダウンロードした後、性能が 1.47 倍向上したローカル LLM が企業によって一級市民のように扱われる必要がある
Microsoft と Apple は AI PC や Apple Intelligence を宣伝したが、実際にコンシューマー GPU で使えるモデルは上位 GPU でしか動かない
Gemma 3 は Llama 4 よりはるかに優れている
Ollama で利用可能