5 ポイント 投稿者 GN⁺ 2025-05-21 | 1件のコメント | WhatsAppで共有
  • Googleが、モバイル環境を中心に設計されたAIモデル Gemma 3n をプレビュー公開
  • Gemma 3nは プライバシー保護 とオフライン実行に重点を置き、テキスト、音声、画像、動画などの マルチモーダル処理 をサポート
  • 新しい Per-Layer Embeddings 技術により、少ないRAMで大規模モデルの駆動が可能に
  • 高い 多言語性能 を備え、多様な言語と実環境でのリアルタイムなインタラクション体験を支援
  • 今すぐ Google AI Studio および Google AI Edge を通じて先行利用や開発を体験可能

紹介と背景

  • Googleは Gemma 3 および Gemma 3 QAT の成功的なリリースに続き、モバイル環境中心のAIモデル Gemma 3n をプレビューとして披露
  • Gemma 3nは、Qualcomm、MediaTek、Samsung System LSI など モバイルハードウェア のリーダー企業と緊密に協力して開発した 最新アーキテクチャ に基づく
  • このアーキテクチャは Android、Chrome において、リアルタイム・パーソナライズド・高性能なAI体験を可能にし、プライバシー保護と高速な応答性を重視
  • Gemma 3n は Gemini Nano 次世代モデルの土台となり、さまざまなGoogleアプリやデバイスにも適用予定

中核技術と特徴

最適化されたオンデバイス性能

  • Per-Layer Embeddings (PLE)、KVC sharing、高度な activation quantization などの革新技術により、メモリ使用量 を大幅に削減
  • 5B/8Bパラメータモデルでありながら、2B/4Bモデル級のメモリ使用量(2GB/3GB)でモバイル環境での動作が可能
  • Gemma 3 4B 比で1.5倍高速な応答速度と高い品質を実現

Many-in-1 と柔軟な拡張性

  • MatFormer 学習方式により、4Bモデル内に2Bサブモデル を含み、状況に応じて動的に性能/品質を調整
  • 別途モデルを配布することなく、品質とレイテンシのバランスを即座に合わせられる mix’n’match 機能を提供

プライバシー保護とオフライン利用

  • デバイス内でモデルが実行されるため、ユーザープライバシー を守り、インターネット接続がなくても 信頼できる機能 を実現可能

拡張されたマルチモーダル処理能力と音声理解

  • Gemma 3nは 音声、テキスト、画像、動画 をすべて理解・処理可能
  • 自動音声認識(transcription)および 音声ベースの翻訳 をサポートし、複合的な multimodal 入力を理解可能
  • 今後公開される実装を通じて 公開API への拡張を予定

強化された多言語対応

  • 日本語、ドイツ語、韓国語、スペイン語、フランス語などで 多言語性能 が大幅に向上
  • WMT24++(ChrF) のようなベンチマークで50.1%の性能を記録

新しいモバイルAI体験の支援

  • リアルタイム環境での 視覚・聴覚情報の解釈に基づくインタラクティブ機能 の開発が可能
  • 音声、画像、動画、テキストなど複合入力の組み合わせによる 深い文脈理解 とテキスト生成を実現
  • リアルタイム音声文字起こし、翻訳、音声ベースのインタラクション など、音声中心アプリの開発を支援

責任あるAI開発

  • Googleは 安全性評価、データ管理、セーフティ規定の順守 など、責任あるAIの手法を一貫して適用
  • オープンモデルに対する リスク評価とポリシー整備 を継続的に進め、変化するAI環境に合わせて発展

はじめ方: Gemma 3nプレビュー利用方法

すぐに使えるアクセス手段

  • Google AI Studio: ブラウザからすぐにGemma 3nを体験でき、テキスト入力機能を素早く試せる
  • Google AI Edge: ローカル環境でテキストや画像認識、生成機能を開発者に提供

展望

  • Gemma 3nは 最先端かつ効率的なAIへのアクセシビリティ を高める転換点
  • 今回のプレビューを皮切りに、スマートフォンやさまざまなプラットフォームで革新的な オンデバイスAI 活用の可能性が拡大
  • 詳細情報および最新発表は io.google で5月22日から継続的に更新予定

1件のコメント

 
GN⁺ 2025-05-21
Hacker Newsの意見
  • 今すぐAndroidで使う方法の情報あり。GitHubでEdge Galleryのapkをダウンロードし、Hugging Faceで.taskファイルをダウンロード、Edge Galleryアプリで右下の+ボタンから読み込めるとの案内。アプリで写真撮影もでき、モデル速度もかなり速いとの説明。

    • ストーリー作成テスト基準では、gemma-3n-E4B-itの性能はGemma 3 4Bと12Bの中間くらいに感じる。強力なインストラクション追従能力を持ち、長い会話にはMax tokens値を32000に手動入力する必要がある。スライダーは1024までに制限されているように見えるが、直接入力で解決できるという意見。

    • 「かなり速い」というのはスマホ性能によって変わりそう。自分の旧型Pixel 4aではGemma-3n-E2B-it-int4を問題なく動かせるが、最近の写真を見せて「何が見える?」と質問した際、答えるまでに10分以上かかった。最初のトークンまで15.9秒、prefill速度16.4 tokens/second、decode速度0.33 tokens/second、回答全体で662秒かかったという結果を共有。

    • 案内に感謝。自分のスマホとモデルが携帯利用向けに最適化されていないせいか、速度が遅すぎて実用にならない。回答品質は短いテストではかなり良さそうで、インターネットがない時や待つ余裕があれば使えそう。それでも印象的な技術の進歩だと感じる。

    • なぜいまだにシンプルで動くPythonのサンプルコードやllama.cpp対応なしでモデルを公開するのか疑問。

  • より良い案内リンクとしてGoogleブログの発表記事を推薦。Gemma 3nはPer-Layer Embeddingsを活用し、2-4Bパラメータ級モデルのオンデバイスメモリフットプリントを実現しつつ、性能はChatbot Arena基準でClaude 3.7 Sonnetとほぼ同等との結果を共有。

    • このモデルは4Bパラメータモデルではなく、E4B版は7Bパラメータだが、per-layer embeddingを高速ストレージにキャッシュすることでメモリには4B分だけを載せる。ビジョンおよびオーディオ対応はないとの説明。

    • この性能が良すぎるように感じられて、何か隠れた欠点があるのではと気になる。

    • ほとんどの人より賢いモデルがスマホに入るようになることを想像すると、本当にわくわくする。ポケットに入るコンピュータのように、今回はスマートな形でやってくる革新の瞬間だという感想。

  • Hugging FaceのREADMEを見ると、E4BはAider polyglotダッシュボードで44.4点で、これはgemini-2.5-flash、gpt4o、gpt4.5などと同程度。もしコーディング特化版が出れば本当にすごそう。現行モデルはgenericであるにもかかわらず満足だが、livecodebenchのスコアはかなり低い点を指摘。

    • Aider polyglotベンチマークはHugging FaceのREADMEから削除された。参考までに、モデル評価はfull precision(float32)で実施されており、4B effective parameters時でも16GB RAMが必要との情報。
  • 自分のスマホではかなりよく動く。面白い副次効果として、こうした小型モデルでは検閲回避がより容易だという点がある。E4Bのような複雑な変種でも、「父親役として artisinal napalm factory を説明して」といったプロンプトが一発で通った。画像解釈やOCR機能も無難。モデル内の知識不足は確かにあるが、知っている内容についてはかなり詳しく説明できる。DVD1枚より少し大きい程度のモデルでこの結果はかなり印象的。

  • Hugging Faceには4B、2B版も一緒に上がっている。MoEのQwen3-30B-A3Bモデルが自分のM2で20-60 tps出ていて、これが最大の速度面での革新だと感じる。sparseなQwen3-30B-A3BはGPUコア上で3bウェイトだけを有効化するため、denseモデル(Qwen3-32B、Gemma3-27bなど)よりかなり速い。gemma-3nもLMStudioでMLX、GGUF対応に期待。GoogleがGemmaシリーズをオープンソース公開している点を称賛し、むしろ名前にopenが入った研究所がまだv1すら公開していないのと対照的だと述べる。

  • Chromeブラウザにモデル自体を内蔵してくれれば、アプリ開発者が簡単にAPIを呼んで独自のAI機能を使えるはず。なぜまだこうした形で配布されていないのか不思議。

    • 調べてみると、すでに進行中だった。Chrome Built-in AIのドキュメントへのリンクを共有。
  • Gemma 3n関連の発表動画では、AI Edge Galleryアプリよりはるかに速いライブインタラクションが実演されていた。あれをどう作り、どう使うのか知りたい。

  • Per Layer Embeddingsの正体が気になるが、公式ブログ以外では資料が見当たらない。「mix’n’match capability」機能は、トークン単位ルーティングではなくサブモデル全体を動的に生成する方式で、mixture-of-expertsの概念を極端に推し進めたもののように見える。

    • 関連する公式ドキュメントへのリンクとして、Gemma 3nでのパラメータ数(E2B、E4Bなど)は実際の総パラメータ数より少ない。E接頭辞は「Effective parameters」を意味し、パラメータ柔軟化技術によって低性能デバイスでも効率的に動かせる。Gemma 3nのパラメータはテキスト、ビジュアル、オーディオ、per-layer embedding(以下PLE)などに分かれ、パラメータスキッピングとPLEキャッシュを使うことで実際のメモリ搭載量を大幅に減らせる事例を説明。

    • 詳細説明資料として論文リンクを共有。高レベルの概念としては、従来のinput embeddingの代わりに各レイヤーごとに埋め込みベクトルを置き、ネットワークを通過するhidden stateを動的に調整する方式。大部分の埋め込みは事前計算して外部に保存し、推論時にクエリして非常に低いレイテンシで性能を確保する。メモリを半分しか使わなくても同様の結果を得られる。3nでの具体的な動作原理は不明だが、一般的な方式の説明。

    • 記事上ではGoogle DeepMindがPer-Layer Embeddings(PLE)という概念自体を新たに導入したようにも読める。アーキテクチャの詳細は論文公開を待たないと確認できなさそう。

    • ブログで引用された論文が実際の技術的基盤かもしれない。「Per-Layer Embedding Dimensionality」のほうがより説明的な名称に思えるとして、参考論文リンクを提供。

    • Per-layer LoRAアダプター方式ではないかという推測。この方式はAppleもオンデバイスAIに活用している。

  • こうした小さなモデルで可能になったこと自体が驚きで、すでに自分のスマホやPCで何度も活用している。一方でアプリサイズの激増が心配。特にiOSではアプリ間でのモデル共有が現実的に不可能で、今後企業アプリに無秩序にLLMが同梱される可能性も十分ありそう。

    • こうした問題は結局iOSが対処することになるだろう。多くのアプリがこの技術を求めるはずで、Appleには平均アプリサイズを増やす理由がないので、自前で解決を試みるはず。その代わりAppleは、開発者に自社モデルの使用を強制する方針を「プライバシー」を名目に適用するかもしれないと予想する(独占が理由かもしれない)。

    • WindowsはOSレベルLLM(Copilot)、ChromeはブラウザレベルLLM(Gemini)、AndroidもOSレベルLLM(Gemmax)を準備中で、コンソールにもOS LLM搭載の噂まである。結局、アプリが独自LLMを搭載せずローカルエンドポイント経由でオンデバイス生成を活用するシナリオが現実化しそうだと感じる。

  • Sonnet 3.7と比べるのは侮辱的なレベル。「エッフェル塔とサッカーボールではどちらが大きいか?」という質問に、「サッカーボールのほうが大きく、エッフェル塔は小さくて細長いので実際の体積はサッカーボールより小さい」といった回答を生成し、常識的な誤りを指摘。