4 ポイント 投稿者 GN⁺ 2024-11-18 | 1件のコメント | WhatsAppで共有
  • voyage-multimodal-3は、テキストと画像が混在する文書から視覚的特徴とテキスト特徴をベクトル化できる最先端モデル

    • PDF、スライド、表、図などのスクリーンショットから主要な視覚的特徴を捉え、複雑な文書パースの必要性をなくす
    • 20のデータセットを用いた3種類のマルチモーダル検索タスクで、平均19.63%の検索精度向上を示した
  • 既存モデルとの比較

    • voyage-multimodal-3は、OpenAI CLIP largeおよびCohere multimodal v3と比べて、テーブル/図検索でそれぞれ41.44%および43.37%優れた性能を示した
    • 文書スクリーンショット検索でそれぞれ26.54%および25.84%優れた性能を示した
    • テキスト-写真検索でそれぞれ6.55%および5.86%優れた性能を示した
  • テキストと画像の混在をサポート

    • 従来のマルチモーダル埋め込みモデルはテキストと画像を別々のネットワークで処理するが、voyage-multimodal-3は同一のトランスフォーマーエンコーダを通じて両方のモードを直接ベクトル化する
    • これにより、視覚情報とテキスト情報の間の文脈的関係を保持し、テキストと画像が混在するデータ、文書スクリーンショット、複雑なレイアウトのPDFなどをベクトル化できる
  • スクリーンショットによる混合モード検索

    • CLIP系モデルは、モード間のギャップにより混合モード検索で性能が低下する
    • voyage-multimodal-3は、あらゆるスクリーンショット比率で最も優れた性能を示し、スクリーンショットの意味的内容を真に捉える
  • 評価の詳細

    • voyage-multimodal-3は、20のマルチモーダルデータセットと34のテキスト検索データセットで評価された
    • 各タスクについて、従来の最高性能モデルを基準として評価した
  • 結果

    • マルチモーダル検索において、voyage-multimodal-3はOpenAI CLIP large、Amazon Titan Multimodal G1、Cohere multimodal v3、SigLIP So400M、ColQwen2 v0.1を上回る性能を示した
    • 標準的なテキスト検索では、OpenAI v3 largeおよびCohere multimodal/English1 v3よりそれぞれ5.13%および13.70%優れた性能を示した
  • 利用案内

    • voyage-multimodal-3は現在利用可能で、最初の2億トークンは無料で提供される
    • サンプルノートブックから始めるか、ドキュメントを参照してさらに多くの情報を得られる

1件のコメント

 
GN⁺ 2024-11-18
Hacker Newsの意見
  • CLIPモデルは混合モダリティ検索で性能が低下する現象がある。これはモダリティギャップによるもので、テキストベクトルが無関係なテキストにより近く現れる問題を引き起こす
    • GoogleのGeminiは当初からマルチモーダルとして設計されており、この問題を改善している。さまざまなモダリティで事前学習されており、あらゆる入力を効果的に理解し推論できる
  • ColiVaraプロジェクトはColPaliを使ってマルチモーダルモデルを実装している。VidoreリーダーボードでVoyageAIの性能を比較してみたい
  • 商用モデルがAPI専用で提供されている点が残念
  • API専用モデルに対する批判的な視点が必要。特に英語以外のテキストに対する評価が必要
  • 実際のデータセットを使って質的分析を行うことが重要。定量的ベンチマークは有用だが、実際にはあまり使われない
  • マルチモーダル埋め込みを見る興味深い方法。入力があるモダリティから別のモダリティへ切り替わる比率で性能を評価する
  • Voyageエンジンは従来のPython APIではテキストブロックをトークン化して文字列を出力する。このモデルは画像のベクトル化によってこれを行う
    • 'you' や 'apple' のような単語は単一トークンとして処理される一方、'pikachu' のような複雑な語は 'pik-a-chu' に分割されることがある
  • Colabで内積値 0.428 と 0.498 を「かなり高い類似度」と説明している。0.4 のしきい値でデータに自信を持ってラベル付けできるシステムを設計できるのか疑問がある