- テキスト、画像、動画、音声、ドキュメントを1つの埋め込み空間にマッピングする初の完全なマルチモーダル埋め込みモデルがパブリックプレビューで公開
- Geminiアーキテクチャを基盤に100以上の言語でセマンティックな意図を把握し、RAG・セマンティック検索・感情分析・データクラスタリングなど多様なダウンストリームタスクを支援
- Matryoshka Representation Learning(MRL) 手法を適用し、デフォルトの3072次元から柔軟に縮小可能で、性能とストレージコストのバランスを調整可能
- テキスト・画像・動画タスクで既存の先行モデルを上回る新たな性能基準を確立し、音声埋め込み機能も新たに導入
- Gemini APIとVertex AIからすぐに利用でき、LangChain・LlamaIndex・Weaviateなど主要なサードパーティフレームワークとの統合をサポート
新しいモダリティと柔軟な出力次元
- Geminiを基盤にマルチモーダル理解能力を活用し、さまざまな入力タイプに対して高品質な埋め込みを生成
- テキスト: 最大8192入力トークンの広いコンテキストをサポート
- 画像: リクエストごとに最大6枚の画像を処理、PNGおよびJPEG形式をサポート
- 動画: MP4、MOV形式で最大120秒の動画入力をサポート
- 音声: 中間的なテキスト変換なしで音声データをネイティブに埋め込み
- ドキュメント: 最大6ページのPDFを直接埋め込み
- 単一モダリティだけでなく、インターリーブ入力(例: 画像 + テキスト)を1つのリクエストで渡せるため、異なるメディアタイプ間の複雑で微妙な関係まで把握可能
- Matryoshka Representation Learning(MRL) 手法により情報を階層的にネストして次元を動的に縮小可能
- デフォルトの3072次元から1536、768などへ柔軟にスケールダウン
- 最高品質のために3072、1536、768次元の使用を推奨
最先端の性能
- レガシーモデルに対する単純な改善ではなく、マルチモーダルの深さにおける新たな性能標準を確立
- テキスト、画像、動画タスクで既存の先行モデルを上回り、強力な音声埋め込み能力を新たに導入
- 多様な埋め込みニーズに対応できる測定可能な性能向上と、独自のマルチモーダルカバレッジを提供
データのより深い意味を導き出す — アーリーアクセスパートナー事例
- 埋め込み技術は多くのGoogle製品で体験を支える中核技術であり、RAGのコンテキストエンジニアリングから大規模データ管理、検索・分析まで活用
- Everlaw (Max Christoff, CTO): 訴訟ディスカバリーの過程で法律専門家が重要情報を見つけられるようGemini埋め込みを採用し、数百万件の記録で適合率と再現率を向上、画像・動画に対する強力な新検索機能を活用
- Sparkonomy (Guneet Singh, 共同創業者): Creator Economic Equality Engineの基盤として活用し、ネイティブなマルチモーダリティによりレイテンシを最大70%削減、テキスト-画像・テキスト-動画ペアのセマンティック類似度スコアが0.4から0.8へとほぼ2倍に向上し、数百万分の動画をかつてない精度でインデックス化
- Mindlid (Ertuğrul Çavuşoğlu, 共同創業者): 既存ワークフローに最小限の変更でそのまま適用できる優れたAPI継続性を評価し、テキストベースの会話メモリを音声・ビジュアル埋め込みとともに埋め込む方法をテスト中で、個人向けウェルネスアプリでtop-1リコール20%向上を確認
はじめに
- Gemini API または Vertex AI からGemini Embedding 2モデルを利用可能
- Python SDKでテキスト、画像、音声を単一呼び出しで埋め込むコード例を提供
- Gemini APIおよびVertex AI向けのインタラクティブなColabノートブックを提供
- LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB、Vector Searchなど主要なサードパーティツールとの統合をサポート
まだコメントはありません。