17 ポイント 投稿者 xguru 2021-11-09 | 2件のコメント | WhatsAppで共有
<p>- 通常のPDFから検索可能なPDF/Aファイルを生成<br /> - OCRした文字列を画像の下に挿入してコピー&ペーストをサポート <br /> - 既存の埋め込み画像の解像度はそのまま維持<br /> - ファイルを損なうことなくOCR情報を挿入 <br /> - PDF画像は最適化してファイルサイズを削減 <br /> - すべてのCPUコアを活用して分散処理 <br /> - Tesseract OCRを利用して100以上の言語をそのままサポート(韓国語を含む)<br /> - 数千ページ規模のファイルでも適切にスケールして処理 <br /> - 数百万件のファイルでテスト済み <br /> - Linux/macOS/Windows(WSL)</p>

2件のコメント

 
alstjr7375 2021-11-09
<p>すごいですね。</p>
 
xguru 2021-11-09
<p>数日前に掲載された pdfsandwich より、はるかに多機能だそうです。<br /> - pdfsandwich - 画像とOCRをサンドイッチしたPDFファイルを作成するツール https://ja.news.hada.io/topic?id=5334<br /> </p>