37 ポイント 投稿者 xguru 2023-12-04 | 6件のコメント | WhatsAppで共有
  • PDF、EPUB、MOBI をMarkdownに変換
  • Facebook Researchが作ったNougatより10倍以上高速で、より正確に変換
  • 書籍と論文の形式に最適化
  • ヘッダー、フッターおよびその他のアーティファクトを除去
  • ほとんどの数式をLaTeXに変換
  • コードブロックおよびテーブルを整形
  • 多言語対応

6件のコメント

 
bus710 2023-12-05

これは……。
英語圏の出版社には試練が訪れるのですね。
テック系中心の出版社の中には、書籍購入時に PDF ファイルをそのまま付けてくれるところも多少ありますが、どう対応していくのか気になります。

 
hero512 2023-12-04

PDFはOCRされている必要があるのでしょうか?? 今すぐ使ってみないとですね

 
limc132 2023-12-04

READMEだけを見ると、OCR処理も実行してくれるように見えますね……私の読み違いかもしれませんが……

 
hero512 2023-12-04

ええ……英語が苦手な人にはちょっと難しい表現を使いましたね
必要に応じてテキストを抽出し、OCRも行う??

 
say8425 2023-12-04

> This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.

速度重視のため、大量のOCRが必要なPDFにはあまり向いていない可能性が高いですね。
OCR自体は動くものの、保証はできない、と理解すればよさそうです。

> Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.

加えて、CJKはサポートされていません。

 
hero512 2023-12-04

ありがとうございます!