2 ポイント 投稿者 GN⁺ 2025-03-13 | まだコメントはありません。 | WhatsAppで共有
  • Gemma 3はGoogle DeepMindの新しい軽量オープンモデルファミリーで、パラメータ規模は1Bから27Bまで多様
  • 主な改善点:
    • マルチモーダル機能を追加 → 視覚的理解能力を含む
    • 長いコンテキスト処理 → 最大128Kトークンを処理可能
    • 多言語対応を強化 → さまざまな言語で性能向上
    • メモリ使用量を最適化 → ローカルおよびグローバル注意(attention)レイヤー比率を調整(5:1)し、KV-cacheメモリ使用を削減
  • **知識蒸留(Knowledge Distillation)**方式で訓練 → 前バージョン比で性能向上

# モデルアーキテクチャ

  • デコーダ専用Transformerアーキテクチャを維持
  • **Grouped-Query Attention (GQA)**を導入 → より効率的な注意メカニズムを適用
  • ローカル/グローバル注意比率 5:1を設定 → ローカルウィンドウサイズを1024トークンに維持
  • **RoPE (Rotary Position Embedding)**の基本周波数を10Kから1Mに拡大 → 長文コンテキスト対応を強化
  • 視覚エンコーダ: SigLIPベースのエンコーダを使用(400Mパラメータ)

# ビジョンモダリティ

  • 視覚エンコーダ: 896 x 896解像度で動作
  • **Pan & Scan (P&S)**手法を適用 → 非定型アスペクト比の画像を処理可能
  • 視覚エンコーダは4B、12B、27Bモデルで共有 → 訓練中は固定状態を維持

# 事前学習 (Pre-training)

  • 知識蒸留方式で訓練を実施
  • 訓練に使用されたトークン数:
    • 1B → 2Tトークン
    • 4B → 4Tトークン
    • 12B → 12Tトークン
    • 27B → 14Tトークン
  • 多言語性能を改善 → 単一言語および並列データを含む
  • 精製プロセス → 個人情報、機微データを除去

# 量子化学習 (Quantization Aware Training)

  • 訓練後に量子化を実施 → int4、fp8などさまざまな形式で提供
  • メモリ節約効果:
    • 27Bモデル基準:
      • 元データ: 54GB → 量子化後: 最小14.1GB

# 命令チューニング (Instruction Tuning)

  • 強化学習と知識蒸留を並行して適用
  • 有用性、数学、コーディング、推論、多言語能力を強化
  • 強化学習に使用された主要技術:
    • BOND, WARM, WARP → 報酬ベースの強化学習手法を適用
  • データ精製 → 不要なデータおよび機微情報を除去

# 性能評価

LMSYS Chatbot Arena評価結果

  • Gemma 3 27B ITモデル Eloスコア: 1338 → 上位10位の性能
  • GPT-4.5およびGrok-3-Previewに近い性能を記録
  • 前バージョンのGemma 2 27Bより118点上昇

標準ベンチマーク性能

  • MMLU-Pro: 67.5(Gemma 2比で約10ポイント上昇)
  • MATH: 89.0(Gemma 2比で約34ポイント上昇)
  • LiveCodeBench: 29.7(Gemma 2比で約9ポイント上昇)

# 構造変化による性能分析

  • ローカル:グローバル注意比率 → 5:1が性能とメモリ使用の両面で最適
  • スライディングウィンドウサイズ → 1024トークンで性能低下なくメモリ効率を維持
  • KVキャッシュメモリ削減 → グローバル専用注意比で15%減少

# 長文コンテキスト対応の強化

  • 訓練時は32Kトークンから開始 → その後128Kトークンへスケールアップ
  • RoPE周波数を調整 → 性能低下なくコンテキストを拡張

# 視覚エンコーダ性能評価

  • 入力解像度の増加で性能向上:
    • 256 → 896解像度で性能が最大20%向上
  • Pan & Scan手法の適用で性能向上:
    • DocVQA → +4.8%
    • InfoVQA → +17.0%

# メモリおよびプライバシー保護

  • **記憶率(Memorization Rate)**の低下:
    • Gemma 3はGemma 2比でメモリ使用率が減少
    • 個人情報漏えいリスクが低い

# 責任、安全、セキュリティ

  • Googleの安全ポリシーに従って有害コンテンツを防止:
    • 児童虐待、ヘイトスピーチ、個人情報漏えいなどを防止
  • 強化された強化学習およびRLHFを適用 → 有害コンテンツ生成を最小化

# 結論

  • Gemma 3は従来のGemma 2モデル比でマルチモーダル、多言語、長文コンテキスト性能が大きく向上
  • 視覚理解能力、数学およびコーディング性能を強化
  • メモリ使用の最適化により、性能と効率の両方が向上

まだコメントはありません。

まだコメントはありません。