pdfsandwich - 画像とOCRをサンドイッチしたPDFファイルを作成するツール

(tobias-elze.de)

14 ポイント投稿者 xguru 2021-11-07 | まだコメントはありません。 | WhatsAppで共有

「sandwich」PDF : 画像だけのPDFファイルをOCR処理し、テキストを各ページの画像の背後に見えない形で挿入したファイル

→ 文字検索や選択してコピーが可能

コマンドラインツールとして、スキャンした書籍や雑誌のOCRに使用

→ マルチカラムのテキストにも対応

tesseract + unpaper + convert + ghostscript

→ tesseract が対応する言語をすべてサポート（韓国語を含む）

Linux/Mac。マルチプロセッサシステムで並列処理に対応

まだコメントはありません。

まだコメントはありません。