Google DeepMindのGemma 3技術レポート [pdf]

(storage.googleapis.com)

2 ポイント投稿者 GN⁺ 2025-03-13 | まだコメントはありません。 | WhatsAppで共有

Gemma 3はGoogle DeepMindの新しい軽量オープンモデルファミリーで、パラメータ規模は1Bから27Bまで多様
主な改善点:
- マルチモーダル機能を追加 → 視覚的理解能力を含む
- 長いコンテキスト処理 → 最大128Kトークンを処理可能
- 多言語対応を強化 → さまざまな言語で性能向上
- メモリ使用量を最適化 → ローカルおよびグローバル注意（attention）レイヤー比率を調整（5:1）し、KV-cacheメモリ使用を削減
**知識蒸留（Knowledge Distillation）**方式で訓練 → 前バージョン比で性能向上

# モデルアーキテクチャ

デコーダ専用Transformerアーキテクチャを維持
**Grouped-Query Attention (GQA)**を導入 → より効率的な注意メカニズムを適用
ローカル/グローバル注意比率 5:1を設定 → ローカルウィンドウサイズを1024トークンに維持
**RoPE (Rotary Position Embedding)**の基本周波数を10Kから1Mに拡大 → 長文コンテキスト対応を強化
視覚エンコーダ: SigLIPベースのエンコーダを使用（400Mパラメータ）

# ビジョンモダリティ

視覚エンコーダ: 896 x 896解像度で動作
**Pan & Scan (P&S)**手法を適用 → 非定型アスペクト比の画像を処理可能
視覚エンコーダは4B、12B、27Bモデルで共有 → 訓練中は固定状態を維持

# 事前学習 (Pre-training)

知識蒸留方式で訓練を実施
訓練に使用されたトークン数:
- 1B → 2Tトークン
- 4B → 4Tトークン
- 12B → 12Tトークン
- 27B → 14Tトークン
多言語性能を改善 → 単一言語および並列データを含む
精製プロセス → 個人情報、機微データを除去

# 量子化学習 (Quantization Aware Training)

訓練後に量子化を実施 → int4、fp8などさまざまな形式で提供
メモリ節約効果:
- 27Bモデル基準:
  - 元データ: 54GB → 量子化後: 最小14.1GB

# 命令チューニング (Instruction Tuning)

強化学習と知識蒸留を並行して適用
有用性、数学、コーディング、推論、多言語能力を強化
強化学習に使用された主要技術:
- BOND, WARM, WARP → 報酬ベースの強化学習手法を適用
データ精製 → 不要なデータおよび機微情報を除去

# 性能評価

LMSYS Chatbot Arena評価結果

Gemma 3 27B ITモデル Eloスコア: 1338 → 上位10位の性能
GPT-4.5およびGrok-3-Previewに近い性能を記録
前バージョンのGemma 2 27Bより118点上昇

標準ベンチマーク性能

MMLU-Pro: 67.5（Gemma 2比で約10ポイント上昇）
MATH: 89.0（Gemma 2比で約34ポイント上昇）
LiveCodeBench: 29.7（Gemma 2比で約9ポイント上昇）

# 構造変化による性能分析

ローカル:グローバル注意比率 → 5:1が性能とメモリ使用の両面で最適
スライディングウィンドウサイズ → 1024トークンで性能低下なくメモリ効率を維持
KVキャッシュメモリ削減 → グローバル専用注意比で15%減少

# 長文コンテキスト対応の強化

訓練時は32Kトークンから開始 → その後128Kトークンへスケールアップ
RoPE周波数を調整 → 性能低下なくコンテキストを拡張

# 視覚エンコーダ性能評価

入力解像度の増加で性能向上:
- 256 → 896解像度で性能が最大20%向上
Pan & Scan手法の適用で性能向上:
- DocVQA → +4.8%
- InfoVQA → +17.0%

# メモリおよびプライバシー保護

**記憶率（Memorization Rate）**の低下:
- Gemma 3はGemma 2比でメモリ使用率が減少
- 個人情報漏えいリスクが低い

# 責任、安全、セキュリティ

Googleの安全ポリシーに従って有害コンテンツを防止:
- 児童虐待、ヘイトスピーチ、個人情報漏えいなどを防止
強化された強化学習およびRLHFを適用 → 有害コンテンツ生成を最小化

# 結論

Gemma 3は従来のGemma 2モデル比でマルチモーダル、多言語、長文コンテキスト性能が大きく向上
視覚理解能力、数学およびコーディング性能を強化
メモリ使用の最適化により、性能と効率の両方が向上

まだコメントはありません。

まだコメントはありません。