OCRmyPDF - スキャンされたPDFファイルにOCRテキストレイヤーを追加

xguru · 2021-11-09T11:02:26+09:00

通常のPDFから検索可能なPDF/Aファイルを生成 OCRした文字列を画像の下に挿入してコピー＆ペーストをサポート既存の埋め込み画像の解像度はそのまま維持ファイルを損なうことなくOCR情報を挿入 PDF画像は最適化してファイルサイズを削減すべてのCPUコアを活用して分散処理 Tesseract OCRを利用して100以上の言語をそのままサポート（韓国語を含む）数千ページ規模のファイルでも適切にスケールして処理数百万件のファイルでテスト済み Linux/macOS/Windows（WSL）

(github.com)

17 ポイント投稿者 xguru 2021-11-09 | 2件のコメント | WhatsAppで共有

通常のPDFから検索可能なPDF/Aファイルを生成
OCRした文字列を画像の下に挿入してコピー＆ペーストをサポート
既存の埋め込み画像の解像度はそのまま維持
ファイルを損なうことなくOCR情報を挿入
PDF画像は最適化してファイルサイズを削減
すべてのCPUコアを活用して分散処理
Tesseract OCRを利用して100以上の言語をそのままサポート（韓国語を含む）
数千ページ規模のファイルでも適切にスケールして処理
数百万件のファイルでテスト済み
Linux/macOS/Windows（WSL）

2件のコメント

alstjr7375 2021-11-09

すごいですね。

xguru 2021-11-09

数日前に掲載された pdfsandwich より、はるかに多機能だそうです。

pdfsandwich - 画像とOCRをサンドイッチしたPDFファイルを作成するツール https://ja.news.hada.io/topic?id=5334

OCRmyPDF - スキャンされたPDFファイルにOCRテキストレイヤーを追加

関連記事

2件のコメント