PDF論文RAG、テキストだけで十分か？ - Gemini embedding 002 埋め込み検索実験

(brunch.co.kr/@230kimi)

5 ポイント投稿者 230kimi 2026-03-31 | 2件のコメント | WhatsAppで共有

Gemini embedding-2-preview（ネイティブ・マルチモーダル埋め込み）で、学術論文PDFのテキスト埋め込みと画像埋め込みを比較実験した結果の整理。

∙	同じページのテキスト↔画像コサイン類似度の平均は0.642。SEM写真、グラフ曲線、空間配置など約36%の視覚情報がテキスト埋め込みに反映されていない  
∙	18個のテキストクエリで検索した場合、画像インデックス（MRR 0.719）がテキストインデックス（0.631）より優秀。重要用語が複数ページに繰り返し登場する論文の特性上、むしろ画像のほうがページ識別力が高かった  
∙	テキスト+画像を合わせたMulti埋め込み（MRR 0.650）は画像単独より低い。両モダリティの特徴が希薄化される効果  
∙	同じ文書内のクロスモーダル検索（テキスト→画像）はHit@5 0%で失敗。ページ間のテキスト類似度が、同一ページのテキスト↔画像類似度より高いため

Figureが多い文書では画像インデキシングが有利であり、「ひとまずテキストを抽出してベクトル化する」というRAGのデフォルトを見直す必要があるという結論。

2件のコメント

mammal 2026-03-31

ColPaliと比べるとどうですか？

230kimi 2026-03-31

英語では colpali のほうが明らかに優れているようです。ただ、韓国語や非英語圏では精度がかなり落ちるんですよね……泣

PDF論文RAG、テキストだけで十分か？ - Gemini embedding 002 埋め込み検索実験

関連記事

2件のコメント