Marker - PDFをMarkdownに変換するオープンソース

xguru · 2023-12-04T10:04:01+09:00

PDF、EPUB、MOBI をMarkdownに変換 Facebook Researchが作ったNougatより10倍以上高速で、より正確に変換書籍と論文の形式に最適化ヘッダー、フッターおよびその他のアーティファクトを除去ほとんどの数式をLaTeXに変換コードブロックおよびテーブルを整形多言語対応

(github.com/VikParuchuri)

37 ポイント投稿者 xguru 2023-12-04 | 6件のコメント | WhatsAppで共有

PDF、EPUB、MOBI をMarkdownに変換
Facebook Researchが作ったNougatより10倍以上高速で、より正確に変換
書籍と論文の形式に最適化
ヘッダー、フッターおよびその他のアーティファクトを除去
ほとんどの数式をLaTeXに変換
コードブロックおよびテーブルを整形
多言語対応

6件のコメント

bus710 2023-12-05

これは……。
英語圏の出版社には試練が訪れるのですね。
テック系中心の出版社の中には、書籍購入時に PDF ファイルをそのまま付けてくれるところも多少ありますが、どう対応していくのか気になります。

hero512 2023-12-04

PDFはOCRされている必要があるのでしょうか？？今すぐ使ってみないとですね

limc132 2023-12-04

READMEだけを見ると、OCR処理も実行してくれるように見えますね……私の読み違いかもしれませんが……

hero512 2023-12-04

ええ……英語が苦手な人にはちょっと難しい表現を使いましたね
必要に応じてテキストを抽出し、OCRも行う？？

say8425 2023-12-04

This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.

速度重視のため、大量のOCRが必要なPDFにはあまり向いていない可能性が高いですね。
OCR自体は動くものの、保証はできない、と理解すればよさそうです。

Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.

加えて、CJKはサポートされていません。

hero512 2023-12-04

ありがとうございます！

Marker - PDFをMarkdownに変換するオープンソース

関連記事

6件のコメント