markitdownとLLMを使ってPDFをMarkdownに変換する (velog.io) 18 ポイント 投稿者 computerphilosopher 2025-09-20 | 5件のコメント | WhatsAppで共有 PDFは依然として主流の文書フォーマット → LLM検索性能には制約 Microsoftのオープンソース markitdown でPDF→Markdown変換を実験 数式・レイアウト崩れなどの限界はあるが、LLM補正で可読性を改善 単一カラム・テキスト中心のPDFに適しており、複雑な文書には制約あり 関連記事 Quarkdown - 強力な機能を備えたMarkdown 1 ポイント · 1件のコメント · 7 일 전 5件のコメント ahwjdekf 2025-09-23 RAGでも、このPDF文書が常に問題になります。 ahwjdekf 2025-09-22 最悪のフォーマット、pdf kbumsik 2025-09-22 markitdown はフォーマット間の変換には便利ですが、PDF では絶対に使ってはいけませんね…。 すでに文書抽出では Gemini のようなマルチモーダル LLM を使う方法がたくさん出ており、ベンチマークでもかなり良い結果が出ています。ただし、問題はコストです。 docling のようなものも良いです。 kaydash 2025-09-22 docling もいいですね lamanus 2025-09-21 markitdown は PDF パースのために https://github.com/pdfminer/pdfminer.six を使っていて、テキストや埋め込み画像はファイルからそのまま抽出します。OCR だなんて、くらくらしますね……
5件のコメント
RAGでも、このPDF文書が常に問題になります。
最悪のフォーマット、pdf
markitdownはフォーマット間の変換には便利ですが、PDF では絶対に使ってはいけませんね…。すでに文書抽出では Gemini のようなマルチモーダル LLM を使う方法がたくさん出ており、ベンチマークでもかなり良い結果が出ています。ただし、問題はコストです。
doclingのようなものも良いです。docling もいいですね
markitdown は PDF パースのために https://github.com/pdfminer/pdfminer.six を使っていて、テキストや埋め込み画像はファイルからそのまま抽出します。OCR だなんて、くらくらしますね……