pdfsandwich - 画像とOCRをサンドイッチしたPDFファイルを作成するツール
(tobias-elze.de)<p>- 「sandwich」PDF : 画像だけのPDFファイルをOCR処理し、テキストを各ページの画像の背後に見えない形で挿入したファイル<br />
→ 文字検索や選択してコピーが可能<br />
- コマンドラインツールとして、スキャンした書籍や雑誌のOCRに使用<br />
→ マルチカラムのテキストにも対応 <br />
- tesseract + unpaper + convert + ghostscript <br />
→ tesseract が対応する言語をすべてサポート(韓国語を含む)<br />
- Linux/Mac。マルチプロセッサシステムで並列処理に対応 </p>
まだコメントはありません。