5 ポイント 投稿者 230kimi 2026-03-31 | 2件のコメント | WhatsAppで共有

Gemini embedding-2-preview(ネイティブ・マルチモーダル埋め込み)で、学術論文PDFのテキスト埋め込みと画像埋め込みを比較実験した結果の整理。

∙	同じページのテキスト↔画像コサイン類似度の平均は0.642。SEM写真、グラフ曲線、空間配置など約36%の視覚情報がテキスト埋め込みに反映されていない  
∙	18個のテキストクエリで検索した場合、画像インデックス(MRR 0.719)がテキストインデックス(0.631)より優秀。重要用語が複数ページに繰り返し登場する論文の特性上、むしろ画像のほうがページ識別力が高かった  
∙	テキスト+画像を合わせたMulti埋め込み(MRR 0.650)は画像単独より低い。両モダリティの特徴が希薄化される効果  
∙	同じ文書内のクロスモーダル検索(テキスト→画像)はHit@5 0%で失敗。ページ間のテキスト類似度が、同一ページのテキスト↔画像類似度より高いため  

Figureが多い文書では画像インデキシングが有利であり、「ひとまずテキストを抽出してベクトル化する」というRAGのデフォルトを見直す必要があるという結論。

2件のコメント

 
mammal 29 일 전

ColPaliと比べるとどうですか?

 
230kimi 29 일 전

英語では colpali のほうが明らかに優れているようです。ただ、韓国語や非英語圏では精度がかなり落ちるんですよね……泣