- Gemma 3はGoogle DeepMindの新しい軽量オープンモデルファミリーで、パラメータ規模は1Bから27Bまで多様
- 主な改善点:
- マルチモーダル機能を追加 → 視覚的理解能力を含む
- 長いコンテキスト処理 → 最大128Kトークンを処理可能
- 多言語対応を強化 → さまざまな言語で性能向上
- メモリ使用量を最適化 → ローカルおよびグローバル注意(attention)レイヤー比率を調整(5:1)し、KV-cacheメモリ使用を削減
- **知識蒸留(Knowledge Distillation)**方式で訓練 → 前バージョン比で性能向上
# モデルアーキテクチャ
- デコーダ専用Transformerアーキテクチャを維持
- **Grouped-Query Attention (GQA)**を導入 → より効率的な注意メカニズムを適用
- ローカル/グローバル注意比率 5:1を設定 → ローカルウィンドウサイズを1024トークンに維持
- **RoPE (Rotary Position Embedding)**の基本周波数を10Kから1Mに拡大 → 長文コンテキスト対応を強化
- 視覚エンコーダ: SigLIPベースのエンコーダを使用(400Mパラメータ)
# ビジョンモダリティ
- 視覚エンコーダ: 896 x 896解像度で動作
- **Pan & Scan (P&S)**手法を適用 → 非定型アスペクト比の画像を処理可能
- 視覚エンコーダは4B、12B、27Bモデルで共有 → 訓練中は固定状態を維持
# 事前学習 (Pre-training)
- 知識蒸留方式で訓練を実施
- 訓練に使用されたトークン数:
- 1B → 2Tトークン
- 4B → 4Tトークン
- 12B → 12Tトークン
- 27B → 14Tトークン
- 多言語性能を改善 → 単一言語および並列データを含む
- 精製プロセス → 個人情報、機微データを除去
# 量子化学習 (Quantization Aware Training)
- 訓練後に量子化を実施 → int4、fp8などさまざまな形式で提供
- メモリ節約効果:
- 27Bモデル基準:
- 元データ: 54GB → 量子化後: 最小14.1GB
# 命令チューニング (Instruction Tuning)
- 強化学習と知識蒸留を並行して適用
- 有用性、数学、コーディング、推論、多言語能力を強化
- 強化学習に使用された主要技術:
- BOND, WARM, WARP → 報酬ベースの強化学習手法を適用
- データ精製 → 不要なデータおよび機微情報を除去
# 性能評価
LMSYS Chatbot Arena評価結果
- Gemma 3 27B ITモデル Eloスコア: 1338 → 上位10位の性能
- GPT-4.5およびGrok-3-Previewに近い性能を記録
- 前バージョンのGemma 2 27Bより118点上昇
標準ベンチマーク性能
- MMLU-Pro: 67.5(Gemma 2比で約10ポイント上昇)
- MATH: 89.0(Gemma 2比で約34ポイント上昇)
- LiveCodeBench: 29.7(Gemma 2比で約9ポイント上昇)
# 構造変化による性能分析
- ローカル:グローバル注意比率 → 5:1が性能とメモリ使用の両面で最適
- スライディングウィンドウサイズ → 1024トークンで性能低下なくメモリ効率を維持
- KVキャッシュメモリ削減 → グローバル専用注意比で15%減少
# 長文コンテキスト対応の強化
- 訓練時は32Kトークンから開始 → その後128Kトークンへスケールアップ
- RoPE周波数を調整 → 性能低下なくコンテキストを拡張
# 視覚エンコーダ性能評価
- 入力解像度の増加で性能向上:
- Pan & Scan手法の適用で性能向上:
- DocVQA → +4.8%
- InfoVQA → +17.0%
# メモリおよびプライバシー保護
- **記憶率(Memorization Rate)**の低下:
- Gemma 3はGemma 2比でメモリ使用率が減少
- 個人情報漏えいリスクが低い
# 責任、安全、セキュリティ
- Googleの安全ポリシーに従って有害コンテンツを防止:
- 児童虐待、ヘイトスピーチ、個人情報漏えいなどを防止
- 強化された強化学習およびRLHFを適用 → 有害コンテンツ生成を最小化
# 結論
- Gemma 3は従来のGemma 2モデル比でマルチモーダル、多言語、長文コンテキスト性能が大きく向上
- 視覚理解能力、数学およびコーディング性能を強化
- メモリ使用の最適化により、性能と効率の両方が向上
まだコメントはありません。