Gemma 4 QATモデル: モバイルとノートPCの効率性に向けた圧縮最適化
(blog.google)- Gemma 4 量子化認識学習(QAT)チェックポイントは、日常的なエッジデバイスやコンシューマー向けGPUでのローカル実行を支援するため、メモリ要件とオンデバイス性能を最適化している
- QATは学習中に量子化をシミュレーションして圧縮時の品質低下を抑え、標準的なPTQベースラインより全体的に高い品質を実現する
- 公開されたチェックポイントは Q4_0 形式とモバイル特化形式を対象としており、モバイル形式では Gemma 4 E2B のメモリフットプリントを 1GB まで削減する
- モバイルスキーマは 静的アクティベーション、チャネル単位の量子化、選択的2ビット量子化、埋め込み・KVキャッシュ最適化によって、モバイルチップの処理負荷とアクティブメモリ使用量を削減する
- Hugging Face の重み、llama.cpp・Ollama・LM Studio、LiteRT-LM・Transformers.js、SGLang・vLLM・MLX・Unsloth のサポートにより、ローカル実行、オンデバイス配布、ファインチューニングを行える
公開の背景と範囲
- Gemma 4 の公開から2か月後、Google は推論高速化向けの Multi-Token Prediction(MTP) と、E4B・26B MOE モデルの間を埋める 12Bモデル に続き、QAT チェックポイントを公開した
- 新しいチェックポイントは、日常的なエッジデバイスやコンシューマー向けGPUで Gemma 4 をローカル実行できるようにするための効率化の取り組みである
- QAT は、学習中に量子化をシミュレーションして、モデル圧縮時の品質低下を最小化する方式である
- 今回のリリースでは、人気のある Q4_0 量子化形式向けの QAT チェックポイントと、モバイル用途に特化した新しい量子化形式を提供する
圧縮と品質のトレードオフ
- 量子化はコンシューマーハードウェアでモデルを実行するための中核技術であり、メモリフットプリントを削減し、デコード速度を高める
- 標準的な学習後量子化(PTQ)はしばしば性能低下を招くが、QAT は量子化プロセスを学習に直接統合する
- PTQ も品質保持には有効だが、QAT の結果は標準的な PTQ ベースラインより高い全体品質を示す
- Google はすべてのモデル性能を最大化するために Q4_0 形式へ QAT レシピを適用し、E2B・E4B のエッジモデルにはモバイル特化の量子化スキーマを別途設計した
モバイル最適化の構造
- 標準的な圧縮形式はモバイルプロセッサ上で効率的に実行しにくいことが多いため、Gemma 4 はエッジハードウェア向けにカスタマイズしたモバイル量子化スキーマを採用している
- 静的アクティベーションは、データスケール設定を学習中に事前計算することで、モバイルチップの処理負荷を減らし、応答速度を高める
- チャネル単位の量子化は、圧縮データをモバイルアクセラレータの構造に合わせて構成し、遅い回避的な方式なしでネイティブ計算を可能にする
- 選択的2ビット量子化は、トークン生成部分を2ビットで強く圧縮しつつ、主要な推論レイヤーはより高い精度に保って、保存容量を節約する
- 埋め込みおよびKVキャッシュ最適化は、モデルの語彙リストと短期メモリへの圧縮に重点を置き、アクティブメモリフットプリントを大幅に減らして長い対話を可能にする
- オーディオ・ビジョンエンコーダが不要な用途では、必要なモダリティだけを配布してメモリフットプリントをさらに減らせる。Per-Layer Embeddings のない Gemma 4 E2B テキスト専用モデルは、1GB 未満のメモリしか必要としない
使い方とツール対応
- Google は Q4_0 および mobile モデルの重みを Hugging Face で提供している
- GGUF 形式は llama.cpp でそのまま利用でき、圧縮テンソルは vLLM 向けに提供される。また、それ以外のワークフロー向けには、Q4_0 対応形式へ変換・量子化できる非量子化チェックポイントも共有している
- 配布方法は ドキュメント で確認できる
- デスクトップでは llama.cpp、Ollama、LM Studio により、Gemma 4 QAT モデルをローカルでダウンロード・管理・実行できる
- オンデバイス配布には Google の軽量な LiteRT-LM ランタイムを利用でき、Web では Transformers.js で直接実行できる
- 大規模モデルのサービングには SGLang と vLLM を利用でき、Apple Silicon 向け最適化には MLX を使用できる
- MTP QAT チェックポイントは、モデルを量子化しながら MTP の速度向上を維持し、Hugging Face Transformers と Unsloth で重みを直接ファインチューニングできる
1件のコメント
Hacker Newsのコメント
Macで
uvx litert-lm runを使って Gemma 4 E2B をローカル実行してみたところ、初回実行時に~/.cache/huggingface/hub/models--litert-community--gemma-4-E2B-it-litert-lmへ 3.2GB をダウンロードしたこのサイズのモデルが音声入力と画像入力も処理できるのはかなり印象的で、画像には
--attachment image.jpg --prompt describe、音声には--attachment audio.wav --prompt transcribeのように実行できるペリカンのSVG出力そのものは今ひとつだったが、3.2GBのファイルが有効なSVGを出力するという点には驚いた: https://gist.github.com/simonw/94b318afde4b1ce5ff67d4b5d0362...
MLX Community のモデルは名前にそう入っているが、こちらのモデルはそうではなく、アップロード日も完全には一致していないように見える
これでデバイス上で動画と音声を認識する基本的なリアルタイム会話が可能になった
uvxは本当に使いやすいNvidia もユーザーに Docker 回避手順を踏ませるのではなく、第一級のサポートを提供してほしい
Unsloth コレクション もあり [0]、結果も公開されている [1]
非量子化の BF16 モデルと比べてもほぼ 100% の精度に近く見え、記事にある Google の元の QAT より Unsloth の量子化のほうが良く見える
個人的には、スマホにモデルを内蔵した状態でも Unsloth Studio と API で 2B モデルを Web 検索と構造化 JSON 出力に使っているが、この用途にはとてもよく合っている
[0] https://huggingface.co/collections/unsloth/gemma-4-qat
[1] https://unsloth.ai/docs/models/gemma-4/qat#qat-analysis
そこで見えているのは通常の BF16 ではなく BF16 QAT Q4_0 だ
Google がモデルを 4 ビットに量子化した後、下位パッカーとの互換性と利便性のために、結果を BF16 形式で保存したという意味に近い
小さな 8 ビット数値を 32 ビット整数に入れておくようなもので、非量子化 BF16 の 100% に近いという意味ではない
ただし、Google が公開した 4 ビット QAT Q4_0 が BF16 QAT Q4_0 のちょうど 100% でない理由は気になる。2つのパッキング間の変換は追加の量子化なしでビット操作だけで済みそうだが、Unsloth は 格子整列 の問題があると言っている
それとは別に、Google や Qwen のような小型モデルメーカーが新モデルを出すたびに BF16 ベンチマークしか見せないのは好ましくない。実際にはみんな 4〜8 ビット量子化で動かしているのに、4 ビットや 6 ビットでどれだけ性能が落ちるのかを知るのがあまりにも難しい
今週だけ見ても Gemma エコシステム がどれほど速く進化しているか印象的だ
Gemma 12B、マルチトークン予測、公式量子化モデルが登場し、Google がこのリリースの流れに本気で力を入れている感じがして期待している
WWDC 直前の金曜日であり、Apple が Google モデルベースの「改良版」Siri を発表する予定だという点が目を引く
現時点ではクローズドな提携かもしれないが、Apple が来週デモするモデルを Google が先に公開している可能性もある
確かな情報はなく、ただの推測だ
ollamaでhf.co/google/gemma-4-12B-it-qat-q4_0-gguf:Q4_0を AMD Ryzen 9 8940HX、NVIDIA GeForce RTX 5060 8GB、RAM 14GB のノートPCで動かしてみたが、予想より速かったGemma 4 12B を公開し(https://news.ycombinator.com/item?id=48385906)、数日後に正式な Q4_0 Gemma 4 12B を出すのは少し奇妙だ
それでも、この記事が Q4_0 Gemma 4 12B の想定 VRAM 使用量を 6.7GB と書いているのはよく、Google が言っていた 16GB に十分収まるという主張には合致しているが、結局それは量子化版に限るという点も確認できる
関連して、Google が新たに出した macOS 向け Edge Gallery では、16GB マシンでもメモリ不足のため Gemma 4 12B をサポートしないと明記されているが、ここでの想定 VRAM 使用量を見る限り Q4_0 版は明らかに入るはずなので、Google は修正すべきだ
モデルや派生版が準備でき次第出すほうが、すべてが一度に揃うまで抱え込むより良いと思う
Q4_0 は元の Gemma 4 12B を単純に量子化したものではなく、量子化認識学習のチェックポイントだ
Google Pixel Intelligence は Apple Intelligence に勝てるかもしれない
12B モデル を 8GB VRAM で動かせるというのは大きな変化だ
小型のローカルモデルがどれほど速く進歩しているかに驚く
Gemma 4 E2B Unsloth 4Q でかなりうまく動かしてみた: https://youtube.com/shorts/XLsAnz5aAAI
E4B モデルは自分のスマホの TPU に載らず RAM にスワップされるが、QAT 版なら精度が良くなるのでうれしい
こちらでは非量子化の E2B モデル でさえ、最も単純な実運用の分類タスクでまったく使いものにならないと感じた
自分の Pixel でも試してみたい