12 ポイント 投稿者 GN⁺ 2025-04-21 | 1件のコメント | WhatsAppで共有
  • 先月発表された Gemma 3 は、最先端の性能を提供するオープンAIモデルであり、NVIDIA H100 のような 単一の高性能GPUでも実行可能
  • QAT(Quantization-Aware Training) 手法を適用した 軽量版 を公開し、今では コンシューマー向けGPU でも実行可能に
  • int4量子化 により メモリ使用量を大幅に削減 しつつ、性能低下を最小限に抑制
  • QATモデルは RTX 3090、RTX 4060 など一般的なGPUでも実行可能 で、Hugging Face、Ollama、LM Studio などですぐに利用可能
  • コミュニティ版の多様な PTQモデルもあわせて提供 され、柔軟に選択可能

Gemma 3 の紹介と性能概要

  • Google が発表した最新のオープンモデル Gemma 3 は、優れた性能を持つ 大規模言語モデル
  • BF16(16ビット浮動小数点)精度で NVIDIA H100 GPU上で実行可能 であり、卓越した Chatbot Arena Eloスコア を記録
  • BF16を使う理由 はモデル間の性能比較を公平にするためで、さまざまな最適化手法を排した状態でモデル本来の性能を比較できる

アクセシビリティ向上のためのQATベース量子化

  • 従来の大規模モデルは高性能なクラウド環境を必要としていたが、コンシューマー向けハードウェアでも実行可能にするため QAT手法を適用
  • 量子化(Quantization) はモデル内部の数値精度を下げることで、メモリ使用量を減らし実行を高速化する
  • 例: BF16 の代わりに int4 形式を使うと 4倍以上の圧縮効果 が生じる

QATを活用した品質維持

  • 単純な後処理量子化ではなく、QAT(Quantization-Aware Training) 方式を用いて学習中に量子化を反映
  • 学習過程では 約5,000ステップのあいだ非量子化チェックポイントの予測確率を目標値として使用
  • この方式により Q4_0 量子化時に Perplexity低下率を54%削減する成果 を達成

VRAM使用量の画期的な削減

  • int4量子化によるVRAM削減 効果は大きく、モデル別の削減幅は以下のとおり:

    • Gemma 3 27B: 54GB → 14.1GB
    • Gemma 3 12B: 24GB → 6.6GB
    • Gemma 3 4B: 8GB → 2.6GB
    • Gemma 3 1B: 2GB → 0.5GB
  • これらの数値にはモデルの重みを読み込むのに必要なVRAMのみが含まれており、実行時に必要な KVキャッシュ は別途VRAMを必要とする

さまざまなデバイスで実行可能

  • Gemma 3 27B (int4): RTX 3090 (24GB VRAM) でローカル実行可能
  • Gemma 3 12B (int4): RTX 4060 Laptop (8GB VRAM) でも問題なく実行可能
  • Gemma 3 4B、1B: スマートフォンや低スペック機器でも動作可能

容易な統合と利用

  • QATモデルは さまざまなプラットフォームやツールですぐに利用可能:

    • Ollama: コマンド1行で実行
    • LM Studio: GUI環境でダウンロードして実行
    • MLX: Apple Silicon ベースで高効率な推論をサポート
    • Gemma.cpp: CPU環境で高性能に実行
    • llama.cpp: GGUFフォーマットで容易に統合

Gemmaverse のコミュニティモデル

  • 公式QATモデルに加えて、多様なコミュニティPTQモデル も提供
  • 主な貢献者: BartowskiUnslothGGML
  • 多様なモデルから 速度、サイズ、品質のバランスに応じて選択可能

今すぐ始められる

  • AIの大衆化に向けた重要な一歩 として、Gemma 3 のQAT版は誰でもローカルで実行可能
  • 実行方法:

1件のコメント

 
GN⁺ 2025-04-21
Hacker Newsの意見
  • gemma-3-27b-it-qat-4bit モデルは、Mistral Small 3.1 24B と並ぶ新たなお気に入りモデル

    • M2 64GB で Ollama と MLX を通じて使用しており、メモリ使用量が少ないため、他のアプリを動かす余裕が十分にある
    • LLM ツール用のプラグイン作成で良好な結果を得ている
  • 個人的な「雰囲気チェック」の質問に対して、4bit QAT 27B モデルが正確な回答を返した

    • 13GB の重みに詰め込まれた情報密度に驚いた
    • Deepmind の Gemma 3 27B モデルは、最も印象的なオープンソースモデルだ
  • 1つ目のグラフは BF16 精度での「Elo Score」の比較で、2つ目のグラフは VRAM 使用量の比較

    • BF16 と QAT の品質比較グラフがないのは残念
  • qwen2.5 の代わりに gemma3:27b-it-qat を使って、32G メモリの Mac で日常的な作業をこなしている

    • Python、Haskell、Common Lisp の開発に非常に役立つ
    • オープンソースモデルをローカルで動かせるのがうれしい
  • 16コアの AMD 3950x CPU で動かしており、翻訳と画像説明で非常に印象的

    • 翻訳時には、入力言語の解析を避けるためにコマンドを調整している
  • 最新の QAT gemma3:27b をダウンロードした後、性能が 1.47 倍向上した

  • ローカル LLM が企業によって一級市民のように扱われる必要がある

    • 1つ目のグラフは、DeepSeek r1 の FP16 実行に必要な H100 の台数について誤解を招く可能性がある
  • Microsoft と Apple は AI PC や Apple Intelligence を宣伝したが、実際にコンシューマー GPU で使えるモデルは上位 GPU でしか動かない

  • Gemma 3 は Llama 4 よりはるかに優れている

    • Meta は LLM 市場での地位を失う可能性がある
    • Llama 4 はモデルサイズが大きすぎて利用者が制限される
    • Gemma 3 はあらゆるハードウェア規模で広く利用できる
  • Ollama で利用可能