Google、オープンモデル Gemma 4 を発表
(deepmind.google)- Google DeepMind が Gemini 3 の技術を基盤とする次世代オープン AI モデル Gemma 4 を発表。パラメータ当たりの知能効率を最大化した構造で設計されている
- モデルは E2B、E4B、26B、31B の4つのサイズで提供され、モバイル・IoT から個人向け GPU 環境まで 幅広い実行範囲をサポート
- マルチモーダル推論、140言語サポート、エージェント型ワークフロー、きめ細かなファインチューニング、効率的なアーキテクチャ などの主要機能を含む
- 数学・コーディング・マルチモーダル理解 の領域で Gemma 3 と比べて性能が大幅に向上しており、セキュリティ・信頼性基準 は Google の商用モデルと同等レベルを維持
- モデルの重みは Hugging Face、Ollama、Kaggle、LM Studio、Docker などからダウンロード可能で、ローカルおよびクラウド環境での統合実行 をサポート
Gemma 4 — 次世代オープン AI モデル
- Gemma 4 は Gemini 3 の研究と技術 を基盤に開発された Google DeepMind の最新オープンモデルで、パラメータ当たりの知能効率(intelligence-per-parameter) を最大化した構造を持つ
- モデルは E2B、E4B、26B、31B の4つのサイズで提供され、モバイル・IoT から個人向けワークステーションまで多様な環境で実行可能
- マルチモーダル推論、140言語サポート、エージェント型ワークフロー、きめ細かなファインチューニング、効率的なアーキテクチャ を主要機能として含む
- 性能ベンチマーク では Gemma 3 と比べて全体的な向上を記録し、とくに数学・コーディング・マルチモーダル理解の分野で高いスコアを達成
- セキュリティ・信頼性基準 は Google の商用モデルと同等レベルに維持され、Hugging Face、Ollama、Kaggle、LM Studio、Docker などでモデルの重みをダウンロード可能
モデル構成と効率性
- Gemma 4 は Gemini 3 の技術基盤 に基づいて設計され、知能効率を最大化 するオープンモデル構造を採用
- モデルサイズは E2B、E4B、26B、31B の4つのバージョンに分かれ、各バージョンは 計算資源とメモリ効率 に応じて最適化されている
- E2B・E4B: モバイルおよび IoT デバイス向けで、最大効率とオフライン実行 をサポート
- 26B・31B: 個人向け GPU 環境で フロンティア級の推論能力 を提供
主な機能
-
Agentic workflows
- 関数呼び出し(function calling) をネイティブでサポートし、ユーザーの代わりに 計画・アプリ探索・タスク実行 が可能な自律型エージェントを構築できる
-
Multimodal reasoning
- 音声とビジュアルの理解能力 を組み合わせ、豊かな マルチモーダルアプリケーション開発 を支援
-
Support for 140 languages
- 単なる翻訳を超え、文化的文脈の理解 を含む多言語体験を生成できる
-
Fine tuning
- ユーザーが好むフレームワークや手法で、特定タスクの性能向上 のためのファインチューニングが可能
-
Efficient architecture
- 自前のハードウェアで実行可能 で、効率的な開発・デプロイ環境を提供
性能
- Gemma 4 はさまざまな テキスト生成関連データセットと指標 を基に評価されている
- 主なベンチマーク結果(Gemma 4 31B IT 基準):
- Arena AI (text): 1452 (Gemma 3 27B の 1365 と比較)
- MMMLU (多言語 Q&A): 85.2%
- MMMU Pro (マルチモーダル推論): 76.9%
- AIME 2026 (数学): 89.2%
- LiveCodeBench v6 (コーディング問題): 80.0%
- GPQA Diamond (科学知識): 84.3%
- τ2-bench (エージェントのツール使用): 86.4%
- 全体として Gemma 3 と比べて すべての項目で性能向上 を示し、とくに 数学・コーディング・マルチモーダル理解 の領域で大きく改善
E2B および E4B — モバイル・IoT 向け
- 音声・ビジョン対応 により、エッジデバイスでのリアルタイム処理 が可能
- スマートフォン、Raspberry Pi、Jetson Nano などで 完全オフライン実行 と ほぼゼロ遅延(latency) の性能を提供
- Google AI Edge Gallery で体験可能
26B および 31B — 高性能ローカル AI
- IDE、コーディングアシスタント、エージェント型ワークフロー に適した高度な推論機能を提供
- コンシューマー向け GPU に最適化 されており、学生・研究者・開発者が ローカル AI サーバー環境 を構築可能
- Google AI Studio で直接実行可能
セキュリティと信頼性
- Gemma 4 には Google の 商用モデルと同じインフラセキュリティプロトコル が適用されている
- 企業および公共機関 が利用できる 透明で信頼できる基盤 を提供
- 最高水準のセキュリティ・信頼性基準 を満たしながら、最新の AI 機能 を提供
ダウンロードと実行
-
モデル重みのダウンロード
- Hugging Face、Ollama、Kaggle、LM Studio、Docker Hub で Gemma 4 のモデル重みを提供
-
学習とデプロイのサポート
- Jax、Vertex AI、Keras、Google AI Edge、Google Kubernetes Engine、Ollama などさまざまなプラットフォームとの統合をサポート
- 公式ドキュメントと API を通じて 学習・デプロイ・推論環境の構成 が可能
Gemmaverse コミュニティ
- Gemmaverse を通じて、世界中の開発者が Gemma を活用して構築したプロジェクトを探せる
- Google DeepMind の X、Instagram、YouTube、LinkedIn、GitHub チャンネルを通じて最新アップデートを提供
- 購読により 最新の AI イノベーション情報 を受け取れる
2件のコメント
Hacker News の意見
Gemma 4 の reasoning・マルチモーダル・ツール呼び出し機能を統合したバージョンが公開された
Hugging Face コレクションで量子化モデルを入手でき、Unsloth ガイドもあわせて提供されている
推奨パラメータは temperature=1.0, top_p=0.95, top_k=64, EOS は
"で、thinking trace には<|channel>thought\nを使う私は OCR・埋め込み・要約パイプライン を構築して、1800年代の土地記録を検索可能にした
GGUF と llama.cpp ベースで多言語検索が可能になり、1分の処理待ち時間もまったく問題に感じない
--reasoning-budget 0や--chat-template-kwargs '{"enable_thinking":false}'は動かなかった新しいフラグ
--reasoning offを使う必要があることがわかったMacBook Air M4(32GB) で unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL をテストしたが、qwen3.5-35b-a3b よりはるかに印象的だった
PowerShell が複数のコンポーネントをインストールした後に
localhostURL を開くよう求めたが、その直後に失敗した開発者ではなく PowerShell に不慣れなので難しく、単一実行ファイル(.exe) 形式で配布されるとありがたい
LM Studio で Gemma 4 モデル群をテストした
2B・4B モデルは妙なペリカン画像を、26B-A4B モデルはこれまで見た中で最も優れた結果を出した
テスト結果を共有
31B モデルはローカルでは "---\n" しか出力しなかったが、AI Studio API では正常に動作した
例: clocks.brianmoore.com
Gemma 4 と Qwen 3.5 のベンチマーク比較表をまとめた
MMLU-Pro、GPQA、Codeforces ELO などさまざまな指標を含んでいる
Qwen 3.5-27B と Gemma 4 26B/31B を比較すると、結果が逆転している部分がある
Unsloth チームが GGUF をすばやく公開した点は印象的で、Qwen 3.5 と同等 なら非常に心強い
小型の Gemma モデルは Qwen の小型モデルよりかなり弱い
Qwen3.5-4B と Gemma 4 関連 Reddit スレッド を参照
Gemma チームの一員として、今回のメジャーリリースに関わった人だ
質問があれば答えられる
関連ブログ を参照
Qwen3.5 9B と競合する中間クラスのモデルを期待していた
もしかすると、ベンチマーク自体が 比較の歪み を生んでいるのではないかと気になっている
比較リンク
Unix timestamp を計算させるプロンプトで Gemma 4 と Qwen 3.5 を比較した
Qwen は8分以上考えた末に正答し、Gemma は30秒で誤った結果を出した
Gemma は Python スクリプトを書いたが実行できず に誤答した
そうでなければ、単なる推測しかできない
dateコマンドは GNU 環境では正しく動作するmacOS では
gdateをインストールする必要がある (brew install coreutils)gist リンク
モデルが単に “想像で” 実行した結果だった
Modular の MAX nightly が Blackwell と AMD MI355 で最速のオープンソース実装だ
Modular ブログ によると pip ですぐにインストールできる
Gemma 4 の ELO 中心のベンチマークは 誤解を招きかねない
Qwen 3.5 27B より大半の指標で低い
ただし 2B・4B モデルは ASR や OCR 用途としては興味深い
私は Lmarena(人手評価ベース) のスコアのほうを信頼している
比較リンク
ついに待ち望んでいたリリースが出た
あと1、2回の反復を重ねれば、セルフホスト 環境でもほとんどの要件を満たせそうだ
以前は単純な質問応答で十分だったが、今では コーディングエージェント 級を期待するようになった
オープンモデルはまだそこまで達していないが、今回のリリースには期待している
翻訳・分類・カテゴリ分け作業の大半を処理している
今回のリリースで最も良い点は Apache 2.0 ライセンス だ
E2B・E4B(モバイル向け)、26B-A4B(MoE)、31B(大型 dense) モデルがある
モバイル版は 音声入力 をサポートし、31B はエージェント作業に強い
26B-A4B は VRAM 効率が近い一方で推論速度がはるかに速い
小さな Rust プロジェクトを Gemma 4 26B と Qwen 3.5 27B にやらせて比較した
Qwen は1時間以上、Gemma は20分でギブアップした
Codex がまとめた結果では、Qwen は 構造的完成度 が高く、Gemma は速いが未完成だった
私もその評価に同意する
関連 PR と issue を参照
リリース直後に判断を急ぐべきではない
26B-A4B は Qwen 3.5 35B-A3B と比較すべきだ
120bのうわさではなかったのは残念ですね