Gemini Embedding 2: 初のネイティブ・マルチモーダル埋め込みモデル

(blog.google)

14 ポイント投稿者 GN⁺ 2026-03-11 | まだコメントはありません。 | WhatsAppで共有

テキスト、画像、動画、音声、ドキュメントを1つの埋め込み空間にマッピングする初の完全なマルチモーダル埋め込みモデルがパブリックプレビューで公開
Geminiアーキテクチャを基盤に100以上の言語でセマンティックな意図を把握し、RAG・セマンティック検索・感情分析・データクラスタリングなど多様なダウンストリームタスクを支援
Matryoshka Representation Learning(MRL) 手法を適用し、デフォルトの3072次元から柔軟に縮小可能で、性能とストレージコストのバランスを調整可能
テキスト・画像・動画タスクで既存の先行モデルを上回る新たな性能基準を確立し、音声埋め込み機能も新たに導入
Gemini APIとVertex AIからすぐに利用でき、LangChain・LlamaIndex・Weaviateなど主要なサードパーティフレームワークとの統合をサポート

新しいモダリティと柔軟な出力次元

Geminiを基盤にマルチモーダル理解能力を活用し、さまざまな入力タイプに対して高品質な埋め込みを生成
- テキスト: 最大8192入力トークンの広いコンテキストをサポート
- 画像: リクエストごとに最大6枚の画像を処理、PNGおよびJPEG形式をサポート
- 動画: MP4、MOV形式で最大120秒の動画入力をサポート
- 音声: 中間的なテキスト変換なしで音声データをネイティブに埋め込み
- ドキュメント: 最大6ページのPDFを直接埋め込み
単一モダリティだけでなく、インターリーブ入力（例: 画像 + テキスト）を1つのリクエストで渡せるため、異なるメディアタイプ間の複雑で微妙な関係まで把握可能
Matryoshka Representation Learning(MRL) 手法により情報を階層的にネストして次元を動的に縮小可能
- デフォルトの3072次元から1536、768などへ柔軟にスケールダウン
- 最高品質のために3072、1536、768次元の使用を推奨

埋め込み技術は多くのGoogle製品で体験を支える中核技術であり、RAGのコンテキストエンジニアリングから大規模データ管理、検索・分析まで活用
Everlaw (Max Christoff, CTO): 訴訟ディスカバリーの過程で法律専門家が重要情報を見つけられるようGemini埋め込みを採用し、数百万件の記録で適合率と再現率を向上、画像・動画に対する強力な新検索機能を活用
Sparkonomy (Guneet Singh, 共同創業者): Creator Economic Equality Engineの基盤として活用し、ネイティブなマルチモーダリティによりレイテンシを最大70%削減、テキスト-画像・テキスト-動画ペアのセマンティック類似度スコアが0.4から0.8へとほぼ2倍に向上し、数百万分の動画をかつてない精度でインデックス化
Mindlid (Ertuğrul Çavuşoğlu, 共同創業者): 既存ワークフローに最小限の変更でそのまま適用できる優れたAPI継続性を評価し、テキストベースの会話メモリを音声・ビジュアル埋め込みとともに埋め込む方法をテスト中で、個人向けウェルネスアプリでtop-1リコール20%向上を確認

Gemini API または Vertex AI からGemini Embedding 2モデルを利用可能
Python SDKでテキスト、画像、音声を単一呼び出しで埋め込むコード例を提供
Gemini APIおよびVertex AI向けのインタラクティブなColabノートブックを提供
LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB、Vector Searchなど主要なサードパーティツールとの統合をサポート