markitdownとLLMを使ってPDFをMarkdownに変換する (velog.io) 18 ポイント 投稿者 computerphilosopher 2025-09-20 | 5件のコメント | WhatsAppで共有 PDFは依然として主流の文書フォーマット → LLM検索性能には制約 Microsoftのオープンソース markitdown でPDF→Markdown変換を実験 数式・レイアウト崩れなどの限界はあるが、LLM補正で可読性を改善 単一カラム・テキスト中心のPDFに適しており、複雑な文書には制約あり 関連記事 Markdownがあなたの足かせになっている 10 ポイント · 7件のコメント · 2025-11-24 高精度かつ高速にPDFをMarkdownへ変換する技術 2 ポイント · 0件のコメント · 2023-12-02 Notionドキュメントをページ分割なしでPDFに変換するツール 2 ポイント · 1件のコメント · 2026-03-01 Microsoft MarkItDown - ファイルとOfficeドキュメントをMarkdownに変換するPythonツール 31 ポイント · 2件のコメント · 2024-12-14 llms.txt - LLMにウェブサイト利用情報を提供するための標準提案 6 ポイント · 4件のコメント · 2024-09-09 5件のコメント ahwjdekf 2025-09-23 RAGでも、このPDF文書が常に問題になります。 ahwjdekf 2025-09-22 最悪のフォーマット、pdf kbumsik 2025-09-22 markitdown はフォーマット間の変換には便利ですが、PDF では絶対に使ってはいけませんね…。 すでに文書抽出では Gemini のようなマルチモーダル LLM を使う方法がたくさん出ており、ベンチマークでもかなり良い結果が出ています。ただし、問題はコストです。 docling のようなものも良いです。 kaydash 2025-09-22 docling もいいですね lamanus 2025-09-21 markitdown は PDF パースのために https://github.com/pdfminer/pdfminer.six を使っていて、テキストや埋め込み画像はファイルからそのまま抽出します。OCR だなんて、くらくらしますね……
5件のコメント
RAGでも、このPDF文書が常に問題になります。
最悪のフォーマット、pdf
markitdownはフォーマット間の変換には便利ですが、PDF では絶対に使ってはいけませんね…。すでに文書抽出では Gemini のようなマルチモーダル LLM を使う方法がたくさん出ており、ベンチマークでもかなり良い結果が出ています。ただし、問題はコストです。
doclingのようなものも良いです。docling もいいですね
markitdown は PDF パースのために https://github.com/pdfminer/pdfminer.six を使っていて、テキストや埋め込み画像はファイルからそのまま抽出します。OCR だなんて、くらくらしますね……