14 ポイント 投稿者 GN⁺ 2026-03-11 | まだコメントはありません。 | WhatsAppで共有
  • テキスト、画像、動画、音声、ドキュメントを1つの埋め込み空間にマッピングする初の完全なマルチモーダル埋め込みモデルがパブリックプレビューで公開
  • Geminiアーキテクチャを基盤に100以上の言語でセマンティックな意図を把握し、RAG・セマンティック検索・感情分析・データクラスタリングなど多様なダウンストリームタスクを支援
  • Matryoshka Representation Learning(MRL) 手法を適用し、デフォルトの3072次元から柔軟に縮小可能で、性能とストレージコストのバランスを調整可能
  • テキスト・画像・動画タスクで既存の先行モデルを上回る新たな性能基準を確立し、音声埋め込み機能も新たに導入
  • Gemini APIとVertex AIからすぐに利用でき、LangChain・LlamaIndex・Weaviateなど主要なサードパーティフレームワークとの統合をサポート

新しいモダリティと柔軟な出力次元

  • Geminiを基盤にマルチモーダル理解能力を活用し、さまざまな入力タイプに対して高品質な埋め込みを生成
    • テキスト: 最大8192入力トークンの広いコンテキストをサポート
    • 画像: リクエストごとに最大6枚の画像を処理、PNGおよびJPEG形式をサポート
    • 動画: MP4、MOV形式で最大120秒の動画入力をサポート
    • 音声: 中間的なテキスト変換なしで音声データをネイティブに埋め込み
    • ドキュメント: 最大6ページのPDFを直接埋め込み
  • 単一モダリティだけでなく、インターリーブ入力(例: 画像 + テキスト)を1つのリクエストで渡せるため、異なるメディアタイプ間の複雑で微妙な関係まで把握可能
  • Matryoshka Representation Learning(MRL) 手法により情報を階層的にネストして次元を動的に縮小可能
    • デフォルトの3072次元から1536、768などへ柔軟にスケールダウン
    • 最高品質のために3072、1536、768次元の使用を推奨

最先端の性能

  • レガシーモデルに対する単純な改善ではなく、マルチモーダルの深さにおける新たな性能標準を確立
  • テキスト、画像、動画タスクで既存の先行モデルを上回り、強力な音声埋め込み能力を新たに導入
  • 多様な埋め込みニーズに対応できる測定可能な性能向上と、独自のマルチモーダルカバレッジを提供

データのより深い意味を導き出す — アーリーアクセスパートナー事例

  • 埋め込み技術は多くのGoogle製品で体験を支える中核技術であり、RAGのコンテキストエンジニアリングから大規模データ管理、検索・分析まで活用
  • Everlaw (Max Christoff, CTO): 訴訟ディスカバリーの過程で法律専門家が重要情報を見つけられるようGemini埋め込みを採用し、数百万件の記録で適合率と再現率を向上、画像・動画に対する強力な新検索機能を活用
  • Sparkonomy (Guneet Singh, 共同創業者): Creator Economic Equality Engineの基盤として活用し、ネイティブなマルチモーダリティによりレイテンシを最大70%削減、テキスト-画像・テキスト-動画ペアのセマンティック類似度スコアが0.4から0.8へとほぼ2倍に向上し、数百万分の動画をかつてない精度でインデックス化
  • Mindlid (Ertuğrul Çavuşoğlu, 共同創業者): 既存ワークフローに最小限の変更でそのまま適用できる優れたAPI継続性を評価し、テキストベースの会話メモリを音声・ビジュアル埋め込みとともに埋め込む方法をテスト中で、個人向けウェルネスアプリでtop-1リコール20%向上を確認

はじめに

  • Gemini API または Vertex AI からGemini Embedding 2モデルを利用可能
  • Python SDKでテキスト、画像、音声を単一呼び出しで埋め込むコード例を提供
  • Gemini APIおよびVertex AI向けのインタラクティブなColabノートブックを提供
  • LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB、Vector Searchなど主要なサードパーティツールとの統合をサポート

まだコメントはありません。

まだコメントはありません。