Marker - PDFをMarkdownに変換するオープンソース (github.com/VikParuchuri) 37 ポイント 投稿者 xguru 2023-12-04 | 6件のコメント | WhatsAppで共有 PDF、EPUB、MOBI をMarkdownに変換 Facebook Researchが作ったNougatより10倍以上高速で、より正確に変換 書籍と論文の形式に最適化 ヘッダー、フッターおよびその他のアーティファクトを除去 ほとんどの数式をLaTeXに変換 コードブロックおよびテーブルを整形 多言語対応 関連記事 高精度かつ高速にPDFをMarkdownへ変換する技術 2 ポイント · 0件のコメント · 2023-12-02 Microsoft MarkItDown - ファイルとOfficeドキュメントをMarkdownに変換するPythonツール 31 ポイント · 2件のコメント · 2024-12-14 markitdownとLLMを使ってPDFをMarkdownに変換する 18 ポイント · 5件のコメント · 2025-09-20 Quarkdown 2.0.0 - 強力な機能を加えたMarkdown 2 ポイント · 1件のコメント · 23 일 전 6件のコメント bus710 2023-12-05 これは……。 英語圏の出版社には試練が訪れるのですね。 テック系中心の出版社の中には、書籍購入時に PDF ファイルをそのまま付けてくれるところも多少ありますが、どう対応していくのか気になります。 hero512 2023-12-04 PDFはOCRされている必要があるのでしょうか?? 今すぐ使ってみないとですね limc132 2023-12-04 READMEだけを見ると、OCR処理も実行してくれるように見えますね……私の読み違いかもしれませんが…… hero512 2023-12-04 ええ……英語が苦手な人にはちょっと難しい表現を使いましたね 必要に応じてテキストを抽出し、OCRも行う?? say8425 2023-12-04 > This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors. 速度重視のため、大量のOCRが必要なPDFにはあまり向いていない可能性が高いですね。 OCR自体は動くものの、保証はできない、と理解すればよさそうです。 > Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not. 加えて、CJKはサポートされていません。 hero512 2023-12-04 ありがとうございます!
6件のコメント
これは……。
英語圏の出版社には試練が訪れるのですね。
テック系中心の出版社の中には、書籍購入時に PDF ファイルをそのまま付けてくれるところも多少ありますが、どう対応していくのか気になります。
PDFはOCRされている必要があるのでしょうか?? 今すぐ使ってみないとですね
READMEだけを見ると、OCR処理も実行してくれるように見えますね……私の読み違いかもしれませんが……
ええ……英語が苦手な人にはちょっと難しい表現を使いましたね
必要に応じてテキストを抽出し、OCRも行う??
> This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.
速度重視のため、大量のOCRが必要なPDFにはあまり向いていない可能性が高いですね。
OCR自体は動くものの、保証はできない、と理解すればよさそうです。
> Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.
加えて、CJKはサポートされていません。
ありがとうございます!