18 ポイント 投稿者 computerphilosopher 2025-09-20 | 5件のコメント | WhatsAppで共有
  • PDFは依然として主流の文書フォーマット → LLM検索性能には制約
  • Microsoftのオープンソース markitdown でPDF→Markdown変換を実験
  • 数式・レイアウト崩れなどの限界はあるが、LLM補正で可読性を改善
  • 単一カラム・テキスト中心のPDFに適しており、複雑な文書には制約あり

5件のコメント

 
ahwjdekf 2025-09-23

RAGでも、このPDF文書が常に問題になります。

 
ahwjdekf 2025-09-22

最悪のフォーマット、pdf

 
kbumsik 2025-09-22

markitdown はフォーマット間の変換には便利ですが、PDF では絶対に使ってはいけませんね…。

すでに文書抽出では Gemini のようなマルチモーダル LLM を使う方法がたくさん出ており、ベンチマークでもかなり良い結果が出ています。ただし、問題はコストです。

docling のようなものも良いです。

 
kaydash 2025-09-22

docling もいいですね

 
lamanus 2025-09-21

markitdown は PDF パースのために https://github.com/pdfminer/pdfminer.six を使っていて、テキストや埋め込み画像はファイルからそのまま抽出します。OCR だなんて、くらくらしますね……