OCR4all - みんなのためのOCR
(ocr4all.org)- 完全無料のオープンソース。サブスクリプション / 有料機能 / 隠されたコードはなし
- 扱いの難しい原稿の高品質な処理から、印刷物の大規模な全文テキスト認識まで柔軟に適用可能
- 強力なレイアウトおよびテキストアノテーションをサポート
- LAREXエディタを使用して、レイアウトとテキスト要素に手動で注釈を付けたり、修正したり、比較したりできる
- OCR-Dエコシステムと完全互換
- 使いやすさを重視した設計: コード / CLI を使わなくても、UIで複雑なOCRワークフローを作成できる
- 簡単なクロスプラットフォーム開発: OSの種類に関係なく、Docker と1つのコマンドで実行可能
1件のコメント
Hacker Newsのコメント
複雑なセグメンテーションのパイプラインは数年前には必要だったが、今ではエラーが多く、モデルから重要な文脈を奪ってしまう。手書き文字に進むには文脈が必要
OCR4allは、近世初期の印刷物のデジタルテキスト復元と認識のためのソフトウェア
OCR4allは、非技術系ユーザーのニーズを明確かつ直感的に扱っている
AppleのVision Frameworkは、Tesseractより高速で高精度なテキスト認識ライブラリを提供している
TesseractとLLMを組み合わせてエラーを修正し、書式を改善するのが、現時点で速度・効率・精度の最適点
AI支援OCR APIを開発した
このワークフローは、歴史的な印刷文書をデジタル化するためのもの
OCR4allは、さまざまなオープンソースソリューションを組み合わせて、自動テキスト認識ワークフローを提供している
これが新しいSOTA OCRエンジンなのか、それとも既知の別エンジンを使うツールなのか気になる
OCRはTesseractでほぼ解決済みだと思っていたが、結果PDFのMRC圧縮のためのライブラリや実装を探している