Google、Gemma 3nを公開 - 新しいオンデバイス・マルチモーダルAIの登場
(developers.googleblog.com)- Gemma 3nは、モバイル・エッジ環境向けの最新オンデバイス・マルチモーダルAIモデルで、画像・音声・動画・テキストをすべて処理可能
- 効率性重視の構造と革新的アーキテクチャ(MatFormer、Per-Layer Embeddings、MobileNet-V5など) により、従来のクラウド大規模モデル級の性能を2~3GBメモリで実現
- E2B/E4Bの2種類のモデルサイズを提供し、Mix-n-Match方式でハードウェアに合わせたきめ細かなカスタムサイズをサポート
- 音声認識・翻訳、リアルタイム視覚分析、140言語の多言語処理 など、さまざまなオンデバイスAI活用例に即時適用可能
- Hugging Face、Ollama、llama.cppなど主要なAIオープンソースエコシステムと幅広く連携し、各種ツール・API・SDKですぐに活用可能
概要と背景
- 昨年初めにリリースされた最初のGemmaモデルは、1億6,000万回以上のダウンロードを記録し、Gemmaverseというエコシステムへと成長
- このエコシステムには、セキュリティ、医療 などに特化したさまざまなモデルや、コミュニティ貢献によって生まれた多くの革新的活用事例が含まれる
- Googleはこうした成功を受け、モバイル中心に設計されたGemma 3nの正式リリースを発表
- Hugging Face Transformers、llama.cpp、Google AI Edge、Ollamaなど、開発者向けエコシステムやツールとの幅広い統合を提供
- Gemma 3nの中核的な革新、ベンチマーク、開発方法について、開発者の視点から詳しく紹介
Gemma 3nの新要素
- Gemma 3nは、オンデバイスAIの新たな飛躍を意味する
- テキスト、画像、音声、動画入力とテキスト出力のネイティブなマルチモーダル対応を提供
- 効率性を最大化し、E2B(5Bパラメータ)、E4B(8Bパラメータ) の2種類のモデルサイズを提供し、少ないメモリ(2GB、3GB)でも実行可能
- MatFormer、Per Layer Embeddings、LAuReL、AltUpなどの革新的アーキテクチャ を適用し、新しい音声・ビジョンエンコーダを搭載
- 140言語対応、35言語でのマルチモーダル理解、数学・コーディング・推論能力の強化、E4B基準でLMArena 1300点突破
MatFormer: 1つのモデルで多様なサイズ
- MatFormer(🪆Matryoshka Transformer)アーキテクチャ は、拡張性と柔軟性のために設計された新しいトランスフォーマー構造
- 大きなモデルの内部に小さなモデルを独立して含める、ロシアのマトリョーシカの原理を活用
- E4B学習時にE2Bサブモデルも同時に最適化することで、別途事前抽出されたモデルのダウンロードなしで、最大2倍高速な推論が可能
- Mix-n-Match 方式により、ハードウェア制約に合わせたカスタム中間モデル(フィードフォワードネットワークまたはレイヤースキップ活用)の生成が可能
- MatFormer Labで、ベンチマークに基づく最適設定の確認とモデル生成が可能
- 将来的にはElastic execution(リアルタイム動的モデルサイズ切り替え)もサポート予定
Per-Layer Embeddings(PLE): オンデバイスのメモリ効率を最大化
- Per-Layer Embeddings(レイヤーごとの埋め込み) により、オンデバイス配備時の品質向上とメモリ使用量最小化を実現
- 全パラメータ(5B/8B)のうち埋め込みのみをCPUで効率的にロード・処理し、トランスフォーマーコア(2B/4B)のみをVRAMに常駐
- その結果、従来比ではるかに小さいメモリ(アクセラレータ上では約2Bパラメータのみ)を使いながら、品質低下なく動作可能
KV Cache Sharing: 長いコンテキスト入力の最適化
- Gemma 3nは、長い音声・動画などの逐次入力を高速に処理するため、KV Cache Sharing機能 を追加
- プリフィル(初期入力処理)段階で中間レイヤーのKVキャッシュを上位レイヤーへ直接共有し、最大2倍以上の性能向上
- 長いシーケンスのプロンプトを従来より高速に認識し、マルチモーダルアプリケーションのリアルタイム性向上が可能
音声認識: STTおよび翻訳対応
- Universal Speech Model(USM) ベースの音声エンコーダを搭載し、160ms単位の音声トークンを言語モデル入力として活用
- オンデバイスで高品質な音声認識(ASR)、音声翻訳(AST) を実装可能
- 英語↔スペイン語、フランス語、イタリア語、ポルトガル語など主要な言語ペアで高い性能を確認
- Chain-of-Thoughtプロンプト手法を活用すると、翻訳品質の向上が可能
- 初期リリース時点の音声エンコーダは30秒クリップまで対応し、今後はより長いストリーミング処理にも拡張予定
MobileNet-V5: 最新のビジョンエンコーダ
- Gemma 3nに統合されたMobileNet-V5-300Mは、エッジデバイスでも強力な性能を提供する高効率ビジョンエンコーダ
- 256x256、512x512、768x768ピクセルなど多様な入力解像度に対応し、要件に応じた性能・ディテール調整が可能
- 大規模マルチモーダルデータセットに基づく共同学習により、画像・動画理解の広さを実現し、具体的な視覚タスク処理にも優れる
- Google Pixelで毎秒60フレームのリアルタイム分析が可能
- アーキテクチャ面では、MobileNet-V4ベースのブロック(Universal Inverted Bottleneck、Mobile MQA)やハイブリッドピラミッド構造、Multi-Scale Fusion VLMアダプタなど多数の革新を適用
- SoViT(Gemma 3ベースライン)比で13倍高速、パラメータ46%削減、メモリ4分の1、高精度 と大きく優位
- 技術レポートでは、アーキテクチャ、データ拡張戦略、ディープラーニング蒸留手法などの追加情報も公開予定
実運用への適用と使い方
- AI Studioですぐ試す: https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
- モデルのダウンロード/配備: Hugging Face、Kaggle、Ollama、llama.cppなどですぐ利用可能
- ツール・フレームワーク連携: Hugging Face Transformers/TRL、MLX、Docker、LMStudio、NVIDIA NeMo、Unslothなど大半をサポート
- API・クラウド配備: Google GenAI API、Vertex AI、NVIDIA APIなど多様な環境でデプロイ可能
主なオンデバイス活用シナリオ
- スマートフォン/エッジデバイス上のリアルタイムAIアシスタント・音声翻訳機・マルチモーダルチャットボット・リアルタイム視覚分析・IoT
- リソース制約環境でのAIサービス内製化
- オフライン・ネットワーク制約環境でのAIイノベーション
開発者リソース
Gemma 3n Impact Challenge
- オンデバイス/オフライン/マルチモーダル機能を活用し、実際の社会的インパクトを持つ製品開発コンテストを開催
- 賞金 $150,000、動画・デモ提出が必要: https://www.kaggle.com/competitions/google-gemma-3n-hackathon
1件のコメント
Hacker Newsの意見
./llama.cpp/llama-cli -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL -ngl 99 --jinja --temp 0.0こんな感じで実行している。また、inference + finetuning向けのColabデモも作っている。Gemma 3Nはオーディオ、テキスト、ビジョンまで対応していて本当に印象的だ。詳しくは https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-tune を参照jinjaが何を意味しているのか気になるSomeType型引数を持つすべての関数名にST_プレフィックスを付ける」)。12bモデルになると、Mistral NemoやGemma 3 12bのように一貫した文章まで生成できる