Google、Gemma 3nを公開 - 新しいオンデバイス・マルチモーダルAIの登場

(developers.googleblog.com)

1 ポイント投稿者 GN⁺ 2025-06-27 | 1件のコメント | WhatsAppで共有

Gemma 3nは、モバイル・エッジ環境向けの最新オンデバイス・マルチモーダルAIモデルで、画像・音声・動画・テキストをすべて処理可能
効率性重視の構造と革新的アーキテクチャ（MatFormer、Per-Layer Embeddings、MobileNet-V5など） により、従来のクラウド大規模モデル級の性能を2~3GBメモリで実現
E2B/E4Bの2種類のモデルサイズを提供し、Mix-n-Match方式でハードウェアに合わせたきめ細かなカスタムサイズをサポート
音声認識・翻訳、リアルタイム視覚分析、140言語の多言語処理 など、さまざまなオンデバイスAI活用例に即時適用可能
Hugging Face、Ollama、llama.cppなど主要なAIオープンソースエコシステムと幅広く連携し、各種ツール・API・SDKですぐに活用可能

概要と背景

昨年初めにリリースされた最初のGemmaモデルは、1億6,000万回以上のダウンロードを記録し、Gemmaverseというエコシステムへと成長
このエコシステムには、セキュリティ、医療 などに特化したさまざまなモデルや、コミュニティ貢献によって生まれた多くの革新的活用事例が含まれる
Googleはこうした成功を受け、モバイル中心に設計されたGemma 3nの正式リリースを発表
Hugging Face Transformers、llama.cpp、Google AI Edge、Ollamaなど、開発者向けエコシステムやツールとの幅広い統合を提供
Gemma 3nの中核的な革新、ベンチマーク、開発方法について、開発者の視点から詳しく紹介

Gemma 3nの新要素

Gemma 3nは、オンデバイスAIの新たな飛躍を意味する
テキスト、画像、音声、動画入力とテキスト出力のネイティブなマルチモーダル対応を提供
効率性を最大化し、E2B（5Bパラメータ）、E4B（8Bパラメータ） の2種類のモデルサイズを提供し、少ないメモリ（2GB、3GB）でも実行可能
MatFormer、Per Layer Embeddings、LAuReL、AltUpなどの革新的アーキテクチャ を適用し、新しい音声・ビジョンエンコーダを搭載
140言語対応、35言語でのマルチモーダル理解、数学・コーディング・推論能力の強化、E4B基準でLMArena 1300点突破

MatFormer: 1つのモデルで多様なサイズ

MatFormer（🪆Matryoshka Transformer）アーキテクチャ は、拡張性と柔軟性のために設計された新しいトランスフォーマー構造
大きなモデルの内部に小さなモデルを独立して含める、ロシアのマトリョーシカの原理を活用
E4B学習時にE2Bサブモデルも同時に最適化することで、別途事前抽出されたモデルのダウンロードなしで、最大2倍高速な推論が可能
Mix-n-Match 方式により、ハードウェア制約に合わせたカスタム中間モデル（フィードフォワードネットワークまたはレイヤースキップ活用）の生成が可能
MatFormer Labで、ベンチマークに基づく最適設定の確認とモデル生成が可能
将来的にはElastic execution（リアルタイム動的モデルサイズ切り替え）もサポート予定

Per-Layer Embeddings（PLE）: オンデバイスのメモリ効率を最大化

Per-Layer Embeddings（レイヤーごとの埋め込み） により、オンデバイス配備時の品質向上とメモリ使用量最小化を実現
全パラメータ（5B/8B）のうち埋め込みのみをCPUで効率的にロード・処理し、トランスフォーマーコア（2B/4B）のみをVRAMに常駐
その結果、従来比ではるかに小さいメモリ（アクセラレータ上では約2Bパラメータのみ）を使いながら、品質低下なく動作可能

KV Cache Sharing: 長いコンテキスト入力の最適化

Gemma 3nは、長い音声・動画などの逐次入力を高速に処理するため、KV Cache Sharing機能 を追加
プリフィル（初期入力処理）段階で中間レイヤーのKVキャッシュを上位レイヤーへ直接共有し、最大2倍以上の性能向上
長いシーケンスのプロンプトを従来より高速に認識し、マルチモーダルアプリケーションのリアルタイム性向上が可能

音声認識: STTおよび翻訳対応

Universal Speech Model（USM） ベースの音声エンコーダを搭載し、160ms単位の音声トークンを言語モデル入力として活用
オンデバイスで高品質な音声認識（ASR）、音声翻訳（AST） を実装可能
英語↔スペイン語、フランス語、イタリア語、ポルトガル語など主要な言語ペアで高い性能を確認
Chain-of-Thoughtプロンプト手法を活用すると、翻訳品質の向上が可能
初期リリース時点の音声エンコーダは30秒クリップまで対応し、今後はより長いストリーミング処理にも拡張予定

MobileNet-V5: 最新のビジョンエンコーダ

Gemma 3nに統合されたMobileNet-V5-300Mは、エッジデバイスでも強力な性能を提供する高効率ビジョンエンコーダ
256x256、512x512、768x768ピクセルなど多様な入力解像度に対応し、要件に応じた性能・ディテール調整が可能
大規模マルチモーダルデータセットに基づく共同学習により、画像・動画理解の広さを実現し、具体的な視覚タスク処理にも優れる
Google Pixelで毎秒60フレームのリアルタイム分析が可能
アーキテクチャ面では、MobileNet-V4ベースのブロック（Universal Inverted Bottleneck、Mobile MQA）やハイブリッドピラミッド構造、Multi-Scale Fusion VLMアダプタなど多数の革新を適用
SoViT（Gemma 3ベースライン）比で13倍高速、パラメータ46%削減、メモリ4分の1、高精度 と大きく優位
技術レポートでは、アーキテクチャ、データ拡張戦略、ディープラーニング蒸留手法などの追加情報も公開予定

実運用への適用と使い方

AI Studioですぐ試す: https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
モデルのダウンロード/配備: Hugging Face、Kaggle、Ollama、llama.cppなどですぐ利用可能
ツール・フレームワーク連携: Hugging Face Transformers/TRL、MLX、Docker、LMStudio、NVIDIA NeMo、Unslothなど大半をサポート
API・クラウド配備: Google GenAI API、Vertex AI、NVIDIA APIなど多様な環境でデプロイ可能

主なオンデバイス活用シナリオ

スマートフォン/エッジデバイス上のリアルタイムAIアシスタント・音声翻訳機・マルチモーダルチャットボット・リアルタイム視覚分析・IoT
リソース制約環境でのAIサービス内製化
オフライン・ネットワーク制約環境でのAIイノベーション

開発者リソース

Gemma 3n Impact Challenge

オンデバイス/オフライン/マルチモーダル機能を活用し、実際の社会的インパクトを持つ製品開発コンテストを開催
- 賞金 $150,000、動画・デモ提出が必要: https://www.kaggle.com/competitions/google-gemma-3n-hackathon

1件のコメント

GN⁺ 2025-06-27

Hacker Newsの意見

このモデルは、以前gemma3で行っていたすべての作業と完全な互換性を示している。自分のVLMファインチューニング用スクリプトにそのままつないでみたが、問題なく動作した（hf transformerコード基準）。LoraでシングルGPU上でE4Bモデルを動かすと、batch size 1基準で18GbのVRAMが必要で、gemma-4Bは21Gb必要だった。deepmindは本当に良い仕事をした。gemma3シリーズは公開重みVLLMの中で最高だ
- 修正: 現在言及しているモデルはE2B
「ペリカンが自転車に乗るSVG生成」プロンプトをGemma 3n 7.5GB（Ollama）とmlx-vlmの15GB版に適用してみたが、2つの量子化サイズごとに結果が異なっていて面白かった。結果はこちらに載せている: https://simonwillison.net/2025/Jun/26/gemma-3n/
- これが本当に意味のあるベンチマークと言えるのか、それとも単なるお遊びなのか気になる。正直あまりよく分からない
いまだにGemmaとGeminiがオンデバイス環境でどう違うのか、よく理解できていない。どちらもネットワーク接続なしで使える点は同じだ。公式文言の活用例: 「Gemini Nanoはネットワーク接続がなくても豊かな生成AI体験を提供します」— この文でGeminiの代わりにGemmaを入れても完全に成り立つ
- 違いはライセンスだ。Gemini Nanoの重みは直接使えず（特に商用の場合）、必ずAndroid MLKitやGoogleが承認したランタイム経由でのみアクセス可能。一方Gemmaは、望むランタイムやフレームワークならどこでも商用利用可能だ
- Gemma 3nのプレビューブログを見ると、Gemma 3nと新しいGemini Nano版は同じアーキテクチャを共有している。ここでのnはNanoの略だと思う。NanoはAndroidに組み込まれる独占モデルで、Gemmaはオープンモデルなのでどこにでも自由に適用できる。関連ソースはGoogle公式ブログと動画にある
- Gemmaはオープンソースでapache 2.0ライセンスだ。アプリに含めるには自分でパッケージングする必要がある。一方Gemini Nanoは完全に制御できないAndroid APIだ
- 2つのモデルの違いは学習データではないかと推測している。Gemini側ははるかに厳格に管理されていて、学習データにあった内容を繰り返し出力しようとすると「recitation error」が発生することがある
OpenAIのおかげで、業界ではこういう無秩序なネーミングが標準になったようで個人的にはあまり好きではない
- では、どんな名前を付けたか気になる
GGUF版を自分で作ったので、必要なら誰でも試せる！ ./llama.cpp/llama-cli -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL -ngl 99 --jinja --temp 0.0 こんな感じで実行している。また、inference + finetuning向けのColabデモも作っている。Gemma 3Nはオーディオ、テキスト、ビジョンまで対応していて本当に印象的だ。詳しくは https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-tune を参照
- OllamaでE4Bモデルをテストしてみたが、画像解釈が完全に誤動作している。出力がテキストにしか依存せず、常に一貫して間違っており、正式なGemma 3 4Bでは問題なかったので、Ollama側の問題だと判断した。調べてみると現在はテキスト専用サポートだった[1]。この点はもう少し明確に案内してほしい。llama.cppを自分でビルドするのが面倒なので、GGUFがサポートされるまで待ってみるつもりだ。[1]: https://github.com/ollama/ollama/issues/10792#issuecomment-3009619264
- Unsloth版を使おうと入力していたところだったが、もう作って公開しているのを見て感心した。すごい！
- ありがとう！こういうモデルを動かすにはどんなPCスペックが必要なのか気になる
- ここで jinja が何を意味しているのか気になる
正直、こうした小型モデルが実運用でどう役立つのか疑問だ。いろいろ試したが、27Bより小さいモデルはおもちゃ以上に使うのが難しく、ときどき良い答えを返す程度だった。gemma3:27b-it-qatでスパムフィルタの問題を解決し、自分のベンチマーク結果でもそのあたりから実用になることを確認した
- 精度が低くても実際に使い道はある。将来どんな製品が出るかは分からないが、すでに今日でも次のような事例がある: iPhoneのキーボードで小さな言語モデルが次の単語の推薦に使われている（ユーザーは提案された単語を選ぶだけでよい）。また、speculative decodingのように、小さなモデルが大きなモデルの推論速度を上げるのにも使われる。今後さらに賢い活用先が登場するだろう
- こうした小型モデルは基盤インフラとして見れば十分に活用価値がある。いつか大半の携帯電話に内蔵LLMが搭載される未来が来たら本当に良いと思う。まるで基本インフラのようになる状況を望んでいる
- 自分が見つけた最高の小型モデル（<5bn params）の使い道はオフライン参照ツールだ。飛行機でコーディングするとき、Googleの代わりにMacBook Airへqwenを入れて、文法やドキュメント化などの基本的な質問をする用途に便利だ
- 4b以下の小型モデルは特定タスク向けファインチューニングに最適化されており、非常に安価に商用モデルより良い結果を出すことも可能だ。コード自動補完にも向いている。7b〜8bモデルはコードのリファクタリングなど、速くて単純なコーディング課題に適している（例: 「SomeType 型引数を持つすべての関数名に ST_ プレフィックスを付ける」）。12bモデルになると、Mistral NemoやGemma 3 12bのように一貫した文章まで生成できる
Kevin Kwokがモデル構造のリバースエンジニアリングを非常にうまくまとめているので参考になる: https://github.com/antimatter15/reverse-engineering-gemma-3n
Googleサイトのどこかに、各製品名、説明、機能を表で整理したデータが必要だ
グラフのY軸の描き方が本当におかしい
gemma 3nのデプロイ版を実際に使うといくらかかるのか知っている人はいる？ドキュメントにはgemini apiでgemma 3nを使えると書かれているが、価格は「unavailable」としか表示されない

Google、Gemma 3nを公開 - 新しいオンデバイス・マルチモーダルAIの登場

概要と背景

Gemma 3nの新要素

MatFormer: 1つのモデルで多様なサイズ

Per-Layer Embeddings（PLE）: オンデバイスのメモリ効率を最大化

KV Cache Sharing: 長いコンテキスト入力の最適化

音声認識: STTおよび翻訳対応

MobileNet-V5: 最新のビジョンエンコーダ

実運用への適用と使い方

主なオンデバイス活用シナリオ

開発者リソース

Gemma 3n Impact Challenge

関連記事

1件のコメント

Hacker Newsの意見