Gemma 4 12B: 統合型エンコーダなしのマルチモーダルモデル

(blog.google)

10 ポイント投稿者 GN⁺ 2026-06-04 | 5件のコメント | WhatsAppで共有

Gemma 4 12Bは、ノートPC上でエージェント型マルチモーダル知能を実行するよう設計された中規模モデルで、edgeフレンドリーなE4Bと、より高度な26B MoEの間を埋める
エンコーダなしの統合アーキテクチャにより、画像と音声入力を個別のマルチモーダルエンコーダなしでLLMバックボーンに直接流し込み、レイテンシとメモリ使用量を削減する方向を採用
標準ベンチマーク性能は、より大きな26B MoEモデルに近づきつつ、総メモリ使用量は半分未満で、16GB RAMまたはVRAM/統合メモリ環境のコンシューマーノートPCでローカル実行が可能
Gemma 4 12BはGemma系で初の中規模モデルとしてネイティブ音声入力をサポートし、Multi-Token Prediction draftersによってレイテンシ低減を目指す
Gemma 4モデルは1億5,000万ダウンロードを超えており、Gemma 4 12BはApache 2.0ライセンスと主要な開発ツール・デプロイ経路への対応によって、ローカルなマルチモーダルエージェント開発の範囲を広げる

主な特徴

Gemma 4 12Bは、ノートPCに高性能なマルチモーダル知能を直接もたらすよう設計されており、モバイル優先の効率性と高度な推論を組み合わせる
edgeフレンドリーなE4Bと、より高度な26B Mixture of Experts(MoE)の間に位置し、削減されたメモリフットプリントの中に強力な機能を収めている
主な特徴は次のとおり
- マルチモーダルエンコーダなしで、ビジョンと音声入力をLLMバックボーンへ直接渡す統合アーキテクチャ
- 26Bモデルに近いベンチマーク性能と、多段階推論・エージェントワークフローへの対応
- 16GB VRAMまたは統合メモリだけでローカル実行できる、ノートPC向けの実用性
- Apache 2.0ライセンスと開発者エコシステム対応
- Multi-Token Prediction(MTP) draftersによるレイテンシ低減

エンコーダなしのマルチモーダル処理方式

従来のマルチモーダルモデルは通常、画像と音声を個別のエンコーダで変換した後、その表現を言語モデルに渡す
Gemma 4 12Bは、分離されたエンコーダがレイテンシとメモリ使用量を増やす点を避けるため、音声とビジョン入力を直接統合するよう学習されている
ビジョン処理では、Gemma 4のビジョンエンコーダを、単一の行列積・位置埋め込み・正規化で構成された軽量な埋め込みモジュールに置き換え、LLMバックボーンが視覚処理を担うようにしている
音声処理では、音声エンコーダを完全に取り除き、生の音声信号をテキストトークンと同じ次元空間に射影する
より詳しい開発者向けの構造説明は、Gemma 4 12B Developer Guideで確認できる

利用開始の方法

数クリックで、LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquentアプリ、LiteRT-LM CLIで試せる
事前学習済みおよびinstruction-tunedチェックポイントは、Hugging FaceとKaggleからダウンロードできる
統合と学習には、developer documentationとquick start notebookを利用できる
ローカル推論パイプラインは、Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLMで実装でき、Unslothで効率的なファインチューニングも行える
公式のSkills Repositoryは、エージェントが最新のGemma機能で構築できるよう設計されたスキルライブラリ
本番向けエンドポイントは、Google Cloud上でGemini Enterprise Agent Platform Model Garden、Cloud Run、GKEを通じてデプロイできる

5件のコメント

hmmhmmhm 2026-06-04

gemma4 26b a4b と比べると速度が少し物足りないですね、これも……。a4b は出る可能性があるのでしょうか？

loblue 2026-06-04

自分のMacBook M1、32GB RAMのモデルで動かしてみないとですね。12Bなら大丈夫そうです

kaydash 2026-06-04

出たばかりでもないのに、なぜ話題になっているのでしょうか？

winterjung 2026-06-04

従来はeモデルと26B、31Bしかなく、Gemma 4 12Bモデルは今回新たに登場しました。

GN⁺ 2026-06-04

Hacker Newsの意見

Q4量子化モデルを llama.cpp で動かし、自作のMinesweeperバイブコーディングベンチマークに入れてみた: https://senko.net/vibecode-bench/2026/minesweeper-gamma-4-12...
結果は悪くなかったが、閉じ括弧を1つ余計に付けたり、関数定義をカンマで区切ろうとしたりするような、妙で些細な文法エラーを何度か手動で直す必要があった
こうした条件を踏まえると、ローカルのコーディングモデルとしてはまずまずで、出力だけ見れば14か月前に出たGPT-4.1とおおむね同程度に見える: https://senko.net/vibecode-bench/2025/minesweeper-gpt-4.1.ht...
12GB VRAMのコンシューマ向けカードで4ビットGGUFにより毎秒5トークン出ており、対話型コーディング用としては遅いが、かなり実用的なモデルだ
1年あまりの間に、GPT-4.1級と見なされていたコーディング性能に120億パラメータのモデルが特定ベンチマークでほぼ追いついた点は興味深い
テストした各種モデル一覧: https://senko.net/vibecode-bench/
- コーディング向けに学習されたモデルではない可能性が高い。音声とビジョン入力があり、12Bにすぎず、発表のどこにもコーディングへの言及がない
  一般的なコーディング性能は、Qwen 3.6 35B A3B、Gemma 4 26B A4B、Nvidia Nemotron 3 Nano 30B-A3B、gpt-oss-20bのような他の小型モデルより低い可能性が高い
  16GBノートPCではQwen 3.5 9Bが明らかに最強で、小型コーディングモデルの最上位はGemma 4 31Bだが、denseなので全コンテキストを使うには約48GBユニファイドメモリが必要だ
- 12GB VRAMカードで毎秒5トークンなら、ハイブリッドモードでCPUとシステムRAMが混在して使われているように見える
  その速度は4ビット基準で、そのサイズのモデルをDDR4 RAM帯域で動かしたときに出る程度の数値であり、RTX 2080やRTX 3060のような12GBコンシューマ向けNvidia GPUなら、llama.cpp のCUDAバックエンドで毎秒20トークン以上は出るはずだ
- コーディングにおける最大の勝因は推論能力だったように思える。だから小型モデルでもGPT-4.1のコーディング性能に匹敵しうるが、一般的な世界知識ではより大きいGPT-4.1が依然として勝つ可能性が高い
- 文法の問題はファインチューニングや他のパラメータ調整で解決できるのか気になる。ああしたエラーはかなりもどかしい
ここでの大きな話はエンコーダなしの構造だが、まだ完全には理解できていない
「Gemma 4のビジョンエンコーダを、単一の行列積、位置埋め込み、正規化で構成された軽量な埋め込みモジュールに置き換えた」という説明は、技術的には依然としてエンコードではあり、SigLIPのような専用モデルを使わないという意味に見える
開発者ガイドでは35Mレイヤーだとさらに説明しているが、十分に堅牢なのか気になる: https://developers.googleblog.com/gemma-4-12b-the-developer-...
「16GB RAMのコンシューマ向けノートPCでローカル実行可能」という言い方は量子化を前提にしているようで、品質低下を考えるとやや誤解を招きうる
- 開発者ページ内にエンコーダなしアーキテクチャをうまく説明した記事が入っている: https://newsletter.maartengrootendorst.com/p/a-visual-guide-...
- これは基本的に初期融合だ
  FAIRは2年前にすでにやっていた: https://arxiv.org/abs/2405.09818
  それ以来こうしたモデルが公開されるのを待っていたが、厄介なのはChameleonは同じ原理でマルチモーダル出力までできたのに、このモデルは入力のみだという点だ
  マルチモーダル出力なしで事前学習をどう行ったのか気になるし、画像出力をサポートしていないのか、あるいは削られたのかも分からない
- 一般的な意味では「エンコード」で正しいが、ここではエンコーダニューラルネットワークがないという意味で言っているようだ
- 実際の大きな話はGalleryアプリだと思う: https://developers.google.com/edge/gallery
  16GB Macを持つ人、特に記者もかなり多いだろうし、誰でもアプリをダウンロードしてモデルをインストールし、すぐ触ってみることができる
  これでOpenAIのコンシューマ売上見通しについて、記者たちが質問を投げ始めるべきだと思う
  AIにはかなり懐疑的だが、ちゃんと理解した懐疑論者になろうとして、ローカルモデルでエージェント作業やCAD-to-image生成を少し試しており、Gemma 26Bモデルはかなり気に入っている
  クラウド依存を作らずに基礎を学び、OpenCodeに慣れるために使っているが、コードもかなりよく書き、自分の望む速度で学ぶ助けになっている
  この12Bモデルが宣伝の半分でも本当なら、少なくとも短期的にはコンシューマ向けクラウド事業モデルに疑問を投げかける
  このアプリがMTP drafterを使っているのかは不明で、Gemmaではまだ直接動かせていないが、Qwen 3.6の内蔵MTP対応はLM Studioで素晴らしかった
- 12Bなら8ビット/パラメータで12GB、ほぼ損失なしで、4ビット/パラメータでは6GBとなり、通常は「かなり近い」水準と受け止められる
  量子化を過度に気にする前に、まずベースモデルの性能がどの程度かを見るべきだ
いまや閉じた循環ゲームに入りつつある。Googleは自社モデルを高速化するために他社を必要とせず、これは本業に近い
こうした効率化を継続的に進めているのは驚くべきことだが、同時に驚くほどでもない。シリコンやCPUアーキテクチャの進化のように、削って削ってより強力になってきたし、AIも時間がたてば100倍効率的になる気がする
いつか限界はあるだろうが、今後30年は過去30年よりも進歩し、遺伝子編集が老化した細胞や臓器を修復し、がんを治療するような、未来的なBlade Runnerめいた世界に生きることになるかもしれない

私たちの生涯の後には、人々は安定して125歳まで移動能力を保って生き、やがて1000年の寿命について考えるようになる気がする
30年前を振り返り、30年後を見れば、信じられないほど変わっていそうだ。神のご加護を願う

今が確かに興味深い時代であるのは間違いないが、最先端の進歩という観点では、まだ摘める低い実がたくさん残っている
ただし、少数のパラメータに収められる「知識」には限界がある
ラジオや航空、さらにはマイクロコンピュータ黎明期もこんな感覚だったのかもしれない
寿命最適化をキャリアや趣味より優先する道を選んだ。未来を見たいし、このAIの流れは本当に興味深い
そうではない
大規模モデルは依然としてはるかに先を行っており、Gemma 31Bでさえ全体としては12Bより優れているが、大規模モデルに近づいたと錯覚してはいけない
最適化の余地は確かにあるが、複雑な作業では、精度のために学習中に捉えられ推論中に追える小さく可視的な勾配が必要になる
たとえばコードを書かないよう指示したうえでコーディングの質問をすると、Gemmaは依然としてコードを書いてしまうが、GeminiやClaudeはそのニュアンスを捉えて指示によりよく従う
Googleがオープンモデルを公開する事業上の理由が気になる。こうした公開には感謝しているが、営利企業として大きな構図の中でどう位置づくのか理解したい
自分たちが開発した新技術の上に競合が乗れるよう手助けしているのではないかと思ってしまう
単なる善意やマーケティングなのか、それとも見落としている戦略があるのか気になる
- フロンティア研究所が推論で80%の粗利益率を得られる大きな理由は、フロンティアモデルという希少資源を握っているからだ
  推論が十分に人気と価値を持ち、それらの企業が数十億ドルの利益を上げるようになれば、その利益でGoogleと顧客の間を切り離す代替製品やプラットフォームを作れてしまう
  Googleはすでに世界最大規模の80%粗利益率ビジネスを持っており、誰もがその一部を欲しがっている
  フロンティア推論を原価に近い価格で提供し、フロンティア未満のモデルはオープンソース化してモデルをコモディティ化すれば、フロンティア研究所が推論で高い粗利益率を継続的に得るのは難しくなる
  これは戦略的な動きだ
- このモデル自体が商用売上製品を置き換えるわけではないが、開発活動を可能にし、このモデルから始めてもう少し欲しくなった企業との対話を開いてくれる
  今まさに私の会社も複数のプラットフォーム製品に全面投資しており、Microsoftも昨日、目標は「Unmetered intelligence」だと語っていた
  小さなローカルモデルで可能になることは多く、そうしたことは別の層で収益を生むスタックの一部になる
- AndroidとChromeにはオンデバイスAI機能が必要だ。Googleはサーバー側の機械学習のようにこれらの重みを閉じたままにはできない
  どうせ誰かが重みを吸い出すのだから、いっそオープンソースとして公開し、公式化してしまったほうが楽だ
- GoogleはAIにおける数少ない垂直統合の選択肢だ。データ、モデル、クラウドサービス、低レベルのシリコン（TPU）、社内利用、消費者向け利用、B2B利用、配布網（ブラウザとモバイル）などを持っている
  AI採用が増えるほど一緒に伸び、人々がGoogleのソリューションを選べばさらに有利になる
  Googleモデルに送られるあらゆるトークンは、無料でも有料でも、競合に最先端を維持するための莫大な支出を強いる圧力になる
- AI研究所なら、この分野に研究チームを置きたくならないはずがない。ここでは最も簡単に反復実験と改善を行い、後でより大きなフロンティアモデルに反映できるからだ
  問題はモデルを公開するか、純粋な研究開発だけに使うかだ
  すでに他社も同程度の品質のモデルを公開しているので、その流れに加わることが自分の首を絞めるとは見なしにくい
  追加の自己侵食は実質ゼロに近く、評判上の利益にはそれだけの価値がある可能性が高い
画像処理はひどい。Qwen 3.5 0.8Bといろいろテストしてみたが、サイズがわずか7%しかないQwenが毎回勝ち、Gemmaは完全に間違えることが多かった
「This is a test」と書かれた単純な画像を与えても、6分間も分析しようとして失敗し、Qwen 3.5 0.8Bは1秒もかからず自信満々に正解した
自分が入手したQ6量子化が壊れていたか、LM Studioの問題かもしれないが、どちらにせよ0.8Bの性能は比べると驚きだ
- GoogleがAlibabaより多い、あるいは強いガードレールを入れていて、小型モデルを混乱させているように思える
  Gemma3モデルでも、画像に露出や性的な場面があるとして説明を拒否することがよくあり、その挙動の意味が理解できなかった
- GemmaモデルはいつもビジョンタスクでQwenよりかなり劣ると感じており、今さら驚くことではない
アーキテクチャの変化とは別に、Gemma4事前学習モデルのラインアップで4Bと26Bの間が妙に空いていた理由への答えのようにも見える
コンテキストの余裕も含めて16GB VRAMに無理なく収まるモデルは、うれしいアップグレードだ
マルチメディアを除くと、これがprismmlのqwen2.5ベース1.5ビットモデルよりどれほど優れているのか気になる
こうした小型モデルのユースケースが気になる。この規模のモデルを日常的に使っている人が、実際の経験を共有してくれないだろうか？
- 地下室のLinuxマシンでvLLMを動かし、Tailscaleで接続して小さなモデルをいろいろな作業に使っている
  スキャン文書を書式付きテキストに変換したり、画像のキャプション/説明と対象適合性の分類（スパム防止を含む）、文書を関連するWikipediaページと照合してタグ付けしたりする作業だ
  フロンティアモデルのようには使わず、各プロンプトが1つの明確な目標を持つようマイクロタスクに分解している
  全体の流れを回すための糊付けコードも多く書いており、こうした作業はLLMが出る前からやっていたものだ
  LLMのおかげで複雑なコードを減らし、モデルを組み合わせてよりよい結果を得られるようになった
  ローカルモデルを使う理由はコストとコントロールだ。すでにワークステーションとGPUは持っていて、運用コストは電気代だけだった
  OpenAIやGoogleの独占的モデルも使ったことがあるが、ツールが依存していたモデルが引退して揺らいだことがあった。重みをローカルに保存しておけば、そうした心配はない
- 自作のディクテーションアプリで、ローカルモデルを使ってテキストを整え、文法を修正している。作るのはとても簡単で、今は会議録のキャプチャと要約まで拡張中で、すべてオンデバイスで処理している
  少し前には、スクリーンショットを見てファイル内容に基づいてファイル名を変更する小さなアプリも見た
  こうした小さな例はたくさんあり、多くのユースケースではフロンティアモデルはまったく必要ない
Gemmaを数年分のオンライン文章のレビューと分類に使ってみた。自分が参加しているオープンソースプロジェクトのフォーラム、HN、Redditなどに書いた約500万語を対象にしており、自分の文章なのでデータ出所の倫理面を気にせずLoRA学習も試せた
今は特定業種に対するWeb検索とデータ抽出に使っている
指定した都市でその業種の事業者を探し、Webサイトを読み、住所や電話番号などを抽出し、重複排除や他ソースとのクロスチェックまでできる程度には十分賢い
Gemma 4はGemini 2.5 Flashより優れているか、少なくともよりニュアンスのある判断をしていた。新しいGemini 3.5 Flashは非常に良いが、現実的でないほど高価だ
非常に高速な性能が必要でないなら、セルフホストのGemma 4が多くの作業で勝る
Qwen 3.6 27Bも、そのサイズの割にセキュリティバグ探しが驚くほど上手い。より大きな複数のモデルを上回り、Gemini Pro 3.1に近いが、Gemini 3.5 Flashは意外なほど明確にさらに優れている
電気代だけで済み、自分の電力は安くて100%再生可能なので、ホスティングモデルより広く使える
それでも賢いお金の使い方は、まだ各プロバイダーが補助金付きのような安値でばらまいているトークンを買うことだ
30GB超のモデルを回すハードウェアを買うより、ClaudeやCodexの100ドルのサブスクリプションで最高クラスのモデルを大幅割引価格で使うほうが、現時点では有利だ
自動化APIが必要なら、DeepSeek/MiMoはAnthropicやOpenAIの最高モデルより1〜2桁以上安い
推論マシン2台に約4000ドルを使ったが、この金額があれば、この種の小型モデル用トークンを数年分は買える
ただ、自分はハードウェアをいじるのが好きで、それ自体が報酬だし、少しでも回収できればボーナスだ
主要プロバイダーが補助トークンで資金を燃やすのをやめ、本格的な課金に踏み切れば計算は変わるかもしれないし、RAM価格が2〜3倍になる前に機材を買っておいたのは幸運だったのかもしれない
技術を学んだり自分で学習実験をしてみるつもりがないなら、多くの場合はローカル実行を試さないほうがよさそうだ
- 小型モデルには特定の作業で非常に良いニッチがある。自分が開発しているデスクトップアプリの文書処理にはファインチューニングしたPhi-4モデルを使っているが、このモデルはこれより小さく、VRAMではなくRAM約3.5GBに収まる
  ローカルモデル利用について非常に具体的なアイデアがあるなら、グラフィックカードやNPUなしでも十分動くようにできる
  ただし、使い方は極端に制限する必要がある。汎用チャットボットとしては向かず、ローカルLLMが好きな立場ではあるが、その用途ならホストされた最新モデルを使うだろう
- このモデルは分からないが、すぐ上の31BはOpenCodeでエージェント型コーディング支援として使っている
  Sonnetに任せられるほど簡単な仕事ならGemma 4にも任せていて、とてもよくやっている
  がっかりするより感心することのほうがずっと多い
  Gemma 4が失敗したのでOpus 4.7に切り替えたら、Opusも失敗するという場面にも珍しくなく出会う
かなり良いアップデートだ。ただ、デモ動画は少しおかしい
テスターがリリース内容を箇条書きにしてくれと頼むと、モデルはうまく処理した
続けてこの内容でメールの下書きを作れと言うと、頼んでもいないのに箇条書きを段落に戻してしまい、さっきうまくやったことを打ち消していた
メールには箇条書きを入れないのがマナーなのかは分からない
ドイツ語関連のベンチマークをすばやく公開して確認してみた。CohereLabs/include-base-44のドイツ語専用結果では、Gemma 4 12Bは0.618程度だ
Gemma 4 26B(A4B MoE)は0.647、Qwen 3 14Bは0.621、Gemma 4 12Bは0.618、Ministral 14B 2512は0.604、Gemma 3 12Bは0.547だった
Qwen 3 14BとGemma 4 12Bの差はランダム変動の範囲内で、反復実行ではまったく同じスコアが出たこともある
次の段階のGemma 4 31Bはこのベンチマークで0.676で、推論を許可したQwen 3 14Bも0.676が出る
明日は不正防止ベンチマークも回して、Qwenがまだ優位かどうか確認する予定だ