10 ポイント 投稿者 GN⁺ 28 일 전 | 2件のコメント | WhatsAppで共有
  • Google DeepMind が Gemini 3 の技術を基盤とする次世代オープン AI モデル Gemma 4 を発表。パラメータ当たりの知能効率を最大化した構造で設計されている
  • モデルは E2B、E4B、26B、31B の4つのサイズで提供され、モバイル・IoT から個人向け GPU 環境まで 幅広い実行範囲をサポート
  • マルチモーダル推論、140言語サポート、エージェント型ワークフロー、きめ細かなファインチューニング、効率的なアーキテクチャ などの主要機能を含む
  • 数学・コーディング・マルチモーダル理解 の領域で Gemma 3 と比べて性能が大幅に向上しており、セキュリティ・信頼性基準 は Google の商用モデルと同等レベルを維持
  • モデルの重みは Hugging Face、Ollama、Kaggle、LM Studio、Docker などからダウンロード可能で、ローカルおよびクラウド環境での統合実行 をサポート

Gemma 4 — 次世代オープン AI モデル

  • Gemma 4Gemini 3 の研究と技術 を基盤に開発された Google DeepMind の最新オープンモデルで、パラメータ当たりの知能効率(intelligence-per-parameter) を最大化した構造を持つ
  • モデルは E2B、E4B、26B、31B の4つのサイズで提供され、モバイル・IoT から個人向けワークステーションまで多様な環境で実行可能
  • マルチモーダル推論140言語サポートエージェント型ワークフローきめ細かなファインチューニング効率的なアーキテクチャ を主要機能として含む
  • 性能ベンチマーク では Gemma 3 と比べて全体的な向上を記録し、とくに数学・コーディング・マルチモーダル理解の分野で高いスコアを達成
  • セキュリティ・信頼性基準 は Google の商用モデルと同等レベルに維持され、Hugging Face、Ollama、Kaggle、LM Studio、Docker などでモデルの重みをダウンロード可能

モデル構成と効率性

  • Gemma 4 は Gemini 3 の技術基盤 に基づいて設計され、知能効率を最大化 するオープンモデル構造を採用
  • モデルサイズは E2B、E4B、26B、31B の4つのバージョンに分かれ、各バージョンは 計算資源とメモリ効率 に応じて最適化されている
    • E2B・E4B: モバイルおよび IoT デバイス向けで、最大効率とオフライン実行 をサポート
    • 26B・31B: 個人向け GPU 環境で フロンティア級の推論能力 を提供

主な機能

  • Agentic workflows

    • 関数呼び出し(function calling) をネイティブでサポートし、ユーザーの代わりに 計画・アプリ探索・タスク実行 が可能な自律型エージェントを構築できる
  • Multimodal reasoning

    • 音声とビジュアルの理解能力 を組み合わせ、豊かな マルチモーダルアプリケーション開発 を支援
  • Support for 140 languages

    • 単なる翻訳を超え、文化的文脈の理解 を含む多言語体験を生成できる
  • Fine tuning

    • ユーザーが好むフレームワークや手法で、特定タスクの性能向上 のためのファインチューニングが可能
  • Efficient architecture

    • 自前のハードウェアで実行可能 で、効率的な開発・デプロイ環境を提供

性能

  • Gemma 4 はさまざまな テキスト生成関連データセットと指標 を基に評価されている
  • 主なベンチマーク結果(Gemma 4 31B IT 基準):
    • Arena AI (text): 1452 (Gemma 3 27B の 1365 と比較)
    • MMMLU (多言語 Q&A): 85.2%
    • MMMU Pro (マルチモーダル推論): 76.9%
    • AIME 2026 (数学): 89.2%
    • LiveCodeBench v6 (コーディング問題): 80.0%
    • GPQA Diamond (科学知識): 84.3%
    • τ2-bench (エージェントのツール使用): 86.4%
  • 全体として Gemma 3 と比べて すべての項目で性能向上 を示し、とくに 数学・コーディング・マルチモーダル理解 の領域で大きく改善

E2B および E4B — モバイル・IoT 向け

  • 音声・ビジョン対応 により、エッジデバイスでのリアルタイム処理 が可能
  • スマートフォン、Raspberry Pi、Jetson Nano などで 完全オフライン実行ほぼゼロ遅延(latency) の性能を提供
  • Google AI Edge Gallery で体験可能

26B および 31B — 高性能ローカル AI

  • IDE、コーディングアシスタント、エージェント型ワークフロー に適した高度な推論機能を提供
  • コンシューマー向け GPU に最適化 されており、学生・研究者・開発者が ローカル AI サーバー環境 を構築可能
  • Google AI Studio で直接実行可能

セキュリティと信頼性

  • Gemma 4 には Google の 商用モデルと同じインフラセキュリティプロトコル が適用されている
  • 企業および公共機関 が利用できる 透明で信頼できる基盤 を提供
  • 最高水準のセキュリティ・信頼性基準 を満たしながら、最新の AI 機能 を提供

ダウンロードと実行

  • モデル重みのダウンロード

    • Hugging FaceOllamaKaggleLM StudioDocker Hub で Gemma 4 のモデル重みを提供
  • 学習とデプロイのサポート

    • JaxVertex AIKerasGoogle AI EdgeGoogle Kubernetes EngineOllama などさまざまなプラットフォームとの統合をサポート
    • 公式ドキュメントと API を通じて 学習・デプロイ・推論環境の構成 が可能

Gemmaverse コミュニティ

  • Gemmaverse を通じて、世界中の開発者が Gemma を活用して構築したプロジェクトを探せる
  • Google DeepMind の X、Instagram、YouTube、LinkedIn、GitHub チャンネルを通じて最新アップデートを提供
  • 購読により 最新の AI イノベーション情報 を受け取れる

2件のコメント

 
GN⁺ 28 일 전
Hacker News の意見
  • Gemma 4 の reasoning・マルチモーダル・ツール呼び出し機能を統合したバージョンが公開された
    Hugging Face コレクションで量子化モデルを入手でき、Unsloth ガイドもあわせて提供されている
    推奨パラメータは temperature=1.0, top_p=0.95, top_k=64, EOS は " で、thinking trace には <|channel>thought\n を使う

    • Daniel の仕事が世界を変えている
      私は OCR・埋め込み・要約パイプライン を構築して、1800年代の土地記録を検索可能にした
      GGUF と llama.cpp ベースで多言語検索が可能になり、1分の処理待ち時間もまったく問題に感じない
    • llama.cpp で “thinking” を無効にしようとしたが、--reasoning-budget 0--chat-template-kwargs '{"enable_thinking":false}' は動かなかった
      新しいフラグ --reasoning off を使う必要があることがわかった
      MacBook Air M4(32GB) で unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL をテストしたが、qwen3.5-35b-a3b よりはるかに印象的だった
    • ガイドの “Search and download Gemma 4” ステップのスクリーンショットが qwen3.5 用になっており、Unsloth Studio では Gemma 3 モデルしか表示されない
    • 初歩的な質問だが、なぜ元のモデルではなくこのバージョンを使うべきなのか気になる
    • Windows 11 で Unsloth を使って Gemma 4 をインストールしていたところ、パスワード設定の段階でエラーが発生した
      PowerShell が複数のコンポーネントをインストールした後に localhost URL を開くよう求めたが、その直後に失敗した
      開発者ではなく PowerShell に不慣れなので難しく、単一実行ファイル(.exe) 形式で配布されるとありがたい
  • LM Studio で Gemma 4 モデル群をテストした
    2B・4B モデルは妙なペリカン画像を、26B-A4B モデルはこれまで見た中で最も優れた結果を出した
    テスト結果を共有
    31B モデルはローカルでは "---\n" しか出力しなかったが、AI Studio API では正常に動作した

    • ペリカンベンチマークのおかげで、モデルが出るたびに Hacker News のコメントを毎回確認するようになった
    • もしかすると、ペリカンがもう 学習データ の一部になっているのではないかと思う
    • すべてのペリカン画像を一覧できる ギャラリーページ があるとよい
      例: clocks.brianmoore.com
    • instruction-tuned バージョンを使えば、ペリカンの品質はかなり良くなりそうだ
    • どんな ノートPCのスペック で動かしたのか気になる
  • Gemma 4 と Qwen 3.5 のベンチマーク比較表をまとめた
    MMLU-Pro、GPQA、Codeforces ELO などさまざまな指標を含んでいる

    • ELO スコアが tfa のグラフと大きく異なる
      Qwen 3.5-27B と Gemma 4 26B/31B を比較すると、結果が逆転している部分がある
      Unsloth チームが GGUF をすばやく公開した点は印象的で、Qwen 3.5 と同等 なら非常に心強い
    • 24GB GPU を持っているユーザーが、この表からどのモデルを選ぶべきかよくわからない
    • 軸を反転させ、一部モデルを除外した比較は、かえって 誤解を招く可能性がある
      小型の Gemma モデルは Qwen の小型モデルよりかなり弱い
      Qwen3.5-4BGemma 4 関連 Reddit スレッド を参照
  • Gemma チームの一員として、今回のメジャーリリースに関わった人だ
    質問があれば答えられる

    • Gemma 3 のような 量子化認識学習(QAT) バージョンを出す予定があるのか気になる
      関連ブログ を参照
    • 今回 12B バージョンがない理由が気になる
      Qwen3.5 9B と競合する中間クラスのモデルを期待していた
    • “メジャーバージョンリリース” が実際に 計算資源規模の増加 を意味するのか、それとも新しいアーキテクチャへの移行を意味するのか気になる
    • ELO スコア以外のベンチマークで性能が低く出る理由があるのか質問している
      もしかすると、ベンチマーク自体が 比較の歪み を生んでいるのではないかと気になっている
    • 個人テストでは Gemini 3 Pro とほぼ同等の性能を示し、コストは10分の1 だった
      比較リンク
  • Unix timestamp を計算させるプロンプトで Gemma 4 と Qwen 3.5 を比較した
    Qwen は8分以上考えた末に正答し、Gemma は30秒で誤った結果を出した
    Gemma は Python スクリプトを書いたが実行できず に誤答した

    • モデルが実際にコードを実行するには、agentic harness 環境でサンドボックス化と仕様の提示が必要になる
      そうでなければ、単なる推測しかできない
    • date コマンドは GNU 環境では正しく動作する
      macOS では gdate をインストールする必要がある (brew install coreutils)
    • RX 9070 XT(24GB VRAM) 環境で、ツールなしで実行しても正しい結果を得られた
      gist リンク
    • 元コメントの投稿者はモデルに実際のコマンド実行権限を与えていなかった
      モデルが単に “想像で” 実行した結果だった
    • 最後の一文が面白かった
  • Modular の MAX nightly が Blackwell と AMD MI355 で最速のオープンソース実装だ
    Modular ブログ によると pip ですぐにインストールできる

    • TensorRT-LLM より速いのか、あるいは TensorRT-LLM をオープンソースと見なしていない理由があるのかと質問している
    • PyTorch 比で どの程度の速度向上 があるのか気になる
  • Gemma 4 の ELO 中心のベンチマークは 誤解を招きかねない
    Qwen 3.5 27B より大半の指標で低い
    ただし 2B・4B モデルは ASR や OCR 用途としては興味深い

    • 公開ベンチマークは操作しやすい
      私は Lmarena(人手評価ベース) のスコアのほうを信頼している
    • 個人テストでは、コーディング以外の領域でかなり良い結果を示した
      比較リンク
    • 中国系モデルは arc-agi 2 のような私的テストで性能が低い
    • ベンチマークはあくまで参考であり、実際のユースケースで直接試すのが最も正確だ
    • “ELO Score” が具体的にどの指標を意味しているのか不明瞭だ
  • ついに待ち望んでいたリリースが出た
    あと1、2回の反復を重ねれば、セルフホスト 環境でもほとんどの要件を満たせそうだ

    • 私も同意するが、自分の「日常的な必要」は毎年より複雑になっている
      以前は単純な質問応答で十分だったが、今では コーディングエージェント 級を期待するようになった
      オープンモデルはまだそこまで達していないが、今回のリリースには期待している
    • Gemma3:27b と Qwen3-vl:30b-a3b は、私が最もよく使うローカル LLM だ
      翻訳・分類・カテゴリ分け作業の大半を処理している
    • どのような種類の作業にセルフホスティングを活用しているのか気になる
  • 今回のリリースで最も良い点は Apache 2.0 ライセンス
    E2B・E4B(モバイル向け)、26B-A4B(MoE)、31B(大型 dense) モデルがある
    モバイル版は 音声入力 をサポートし、31B はエージェント作業に強い
    26B-A4B は VRAM 効率が近い一方で推論速度がはるかに速い

  • 小さな Rust プロジェクトを Gemma 4 26B と Qwen 3.5 27B にやらせて比較した
    Qwen は1時間以上、Gemma は20分でギブアップした
    Codex がまとめた結果では、Qwen は 構造的完成度 が高く、Gemma は速いが未完成だった
    私もその評価に同意する

    • 現在 chat template バグ によりツール呼び出しが不安定になっている
      関連 PRissue を参照
      リリース直後に判断を急ぐべきではない
    • Qwen 3.5 27B は dense モデルなので、Gemma 4 31B と比較するのが適切だ
      26B-A4B は Qwen 3.5 35B-A3B と比較すべきだ
    • Qwen は dense、Gemma は MoE 構造なので、直接比較は難しい
 
eoeoe 28 일 전

120bのうわさではなかったのは残念ですね