Microsoft MarkItDown - ファイルとOfficeドキュメントをMarkdownに変換するPythonツール
(github.com/microsoft)- さまざまなファイルをMarkdownに変換するユーティリティツール
- 対応フォーマット:
- PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx)
- 画像(EXIFメタデータおよびOCR)、音声(EXIFメタデータおよび音声変換)
- HTML(特にWikipediaなどを特別処理)そのほか多様なテキストベース形式(csv, json, xml など)
- APIの使い方は簡単:
from markitdown import MarkItDown markitdown = MarkItDown() result = markitdown.convert("test.xlsx") print(result.text_content)
2件のコメント
お、マイクロソフト内部でもオープンソース化しようとしているみたいですね?
Hacker Newsの意見
uvをインストールしている場合、ファイルに対して追加インストールなしでuvx markitdown path-to-file.pdfコマンドで実行できる会社でファイルを LLM フレンドリーなテキストに変換する機能を開発した経験がある
多くのスタートアップやオープンソースプロジェクトがこの分野を複雑にしているが、最終的な目標は理解しやすくデプロイしやすいシンプルなプロジェクトである
PDF 処理では、「どれだけ多くの処理をしたいか」を調整できる機能があるとよい
PDF 処理では PDFMiner を直接統合するほうがよいかもしれない
Pandoc を使えば .docx ファイルを Markdown や他のファイル形式に変換できる
複雑な視覚レイアウトと大量の表を持つ、テーブルトップ RPG 本の PDF を索引化している
README に LLM への言及がないのは予想外だが好印象
オンライン語学授業で課題を Slack で提出したときの経験共有
docling との比較が気になる
Markdown から PDF や .docx に変換する良いライブラリがあるのか気になる
Microsoft なら Outlook HTML と .docx から半分くらいはまともな結果を出せるはず