voyage-multimodal-3:テキスト、画像、スクリーンショット向けのオールインワン埋め込みモデル
(blog.voyageai.com)-
voyage-multimodal-3は、テキストと画像が混在する文書から視覚的特徴とテキスト特徴をベクトル化できる最先端モデル
- PDF、スライド、表、図などのスクリーンショットから主要な視覚的特徴を捉え、複雑な文書パースの必要性をなくす
- 20のデータセットを用いた3種類のマルチモーダル検索タスクで、平均19.63%の検索精度向上を示した
-
既存モデルとの比較
- voyage-multimodal-3は、OpenAI CLIP largeおよびCohere multimodal v3と比べて、テーブル/図検索でそれぞれ41.44%および43.37%優れた性能を示した
- 文書スクリーンショット検索でそれぞれ26.54%および25.84%優れた性能を示した
- テキスト-写真検索でそれぞれ6.55%および5.86%優れた性能を示した
-
テキストと画像の混在をサポート
- 従来のマルチモーダル埋め込みモデルはテキストと画像を別々のネットワークで処理するが、voyage-multimodal-3は同一のトランスフォーマーエンコーダを通じて両方のモードを直接ベクトル化する
- これにより、視覚情報とテキスト情報の間の文脈的関係を保持し、テキストと画像が混在するデータ、文書スクリーンショット、複雑なレイアウトのPDFなどをベクトル化できる
-
スクリーンショットによる混合モード検索
- CLIP系モデルは、モード間のギャップにより混合モード検索で性能が低下する
- voyage-multimodal-3は、あらゆるスクリーンショット比率で最も優れた性能を示し、スクリーンショットの意味的内容を真に捉える
-
評価の詳細
- voyage-multimodal-3は、20のマルチモーダルデータセットと34のテキスト検索データセットで評価された
- 各タスクについて、従来の最高性能モデルを基準として評価した
-
結果
- マルチモーダル検索において、voyage-multimodal-3はOpenAI CLIP large、Amazon Titan Multimodal G1、Cohere multimodal v3、SigLIP So400M、ColQwen2 v0.1を上回る性能を示した
- 標準的なテキスト検索では、OpenAI v3 largeおよびCohere multimodal/English1 v3よりそれぞれ5.13%および13.70%優れた性能を示した
-
利用案内
- voyage-multimodal-3は現在利用可能で、最初の2億トークンは無料で提供される
- サンプルノートブックから始めるか、ドキュメントを参照してさらに多くの情報を得られる
1件のコメント
Hacker Newsの意見