PDF論文RAG、テキストだけで十分か? - Gemini embedding 002 埋め込み検索実験
(brunch.co.kr/@230kimi)Gemini embedding-2-preview(ネイティブ・マルチモーダル埋め込み)で、学術論文PDFのテキスト埋め込みと画像埋め込みを比較実験した結果の整理。
∙ 同じページのテキスト↔画像コサイン類似度の平均は0.642。SEM写真、グラフ曲線、空間配置など約36%の視覚情報がテキスト埋め込みに反映されていない
∙ 18個のテキストクエリで検索した場合、画像インデックス(MRR 0.719)がテキストインデックス(0.631)より優秀。重要用語が複数ページに繰り返し登場する論文の特性上、むしろ画像のほうがページ識別力が高かった
∙ テキスト+画像を合わせたMulti埋め込み(MRR 0.650)は画像単独より低い。両モダリティの特徴が希薄化される効果
∙ 同じ文書内のクロスモーダル検索(テキスト→画像)はHit@5 0%で失敗。ページ間のテキスト類似度が、同一ページのテキスト↔画像類似度より高いため
Figureが多い文書では画像インデキシングが有利であり、「ひとまずテキストを抽出してベクトル化する」というRAGのデフォルトを見直す必要があるという結論。
2件のコメント
ColPaliと比べるとどうですか?
英語では
colpaliのほうが明らかに優れているようです。ただ、韓国語や非英語圏では精度がかなり落ちるんですよね……泣