39 ポイント 投稿者 GN⁺ 2025-02-15 | 1件のコメント | WhatsAppで共有
  • 完全無料のオープンソース。サブスクリプション / 有料機能 / 隠されたコードはなし
  • 扱いの難しい原稿の高品質な処理から、印刷物の大規模な全文テキスト認識まで柔軟に適用可能
  • 強力なレイアウトおよびテキストアノテーションをサポート
    • LAREXエディタを使用して、レイアウトとテキスト要素に手動で注釈を付けたり、修正したり、比較したりできる
  • OCR-Dエコシステムと完全互換
  • 使いやすさを重視した設計: コード / CLI を使わなくても、UIで複雑なOCRワークフローを作成できる
  • 簡単なクロスプラットフォーム開発: OSの種類に関係なく、Docker と1つのコマンドで実行可能

1件のコメント

 
GN⁺ 2025-02-15
Hacker Newsのコメント
  • 複雑なセグメンテーションのパイプラインは数年前には必要だったが、今ではエラーが多く、モデルから重要な文脈を奪ってしまう。手書き文字に進むには文脈が必要

    • 歴史的な手稿文字を解読するには、専門家は文書全体が必要だと言うはず
    • 文字認識ではなく、最後までテキスト認識を行うべき
    • CERでモデルを評価するのはよくない
    • テキスト認識は15年前の機械翻訳の失敗を繰り返している
  • OCR4allは、近世初期の印刷物のデジタルテキスト復元と認識のためのソフトウェア

    • 複雑な印刷様式と不均一なレイアウトは、一般的なテキスト認識ソフトウェアの能力を試す
    • Calamari-OCRをベースに構築されているようだ
  • OCR4allは、非技術系ユーザーのニーズを明確かつ直感的に扱っている

    • Linuxでターミナルを開いてコマンドを入力せよという案内がある
    • それが非技術系ユーザーにどう役立つのか疑問
  • AppleのVision Frameworkは、Tesseractより高速で高精度なテキスト認識ライブラリを提供している

    • ほぼすべての画像形式を扱える
    • シンプルなCLIツールとPythonラッパーを書いた
  • TesseractとLLMを組み合わせてエラーを修正し、書式を改善するのが、現時点で速度・効率・精度の最適点

    • 英語のプロンプト文を編集して、入力文書に固有の側面を優先できる
  • AI支援OCR APIを開発した

    • TesseractとPoppler-utilsを組み合わせて、文書セグメントを知的に抽出する
    • 複数のVision LLMモデルへ容易に拡張できる
    • 完全なAIエージェントAPIをDockerizedコンテナとして出力する
  • このワークフローは、歴史的な印刷文書をデジタル化するためのもの

    • ブラックレター活字による古い公告を保存することに関係している
  • OCR4allは、さまざまなオープンソースソリューションを組み合わせて、自動テキスト認識ワークフローを提供している

    • OCR-Dベースのようで、これはTesseract、Kraken、DUP-ocropy、Calamari-OCRに基づいている
    • Transkribusのオープンソース代替のようだ
    • eScriptoriumも別の代替手段
  • これが新しいSOTA OCRエンジンなのか、それとも既知の別エンジンを使うツールなのか気になる

    • ランディングページがもっと明確だとよい
  • OCRはTesseractでほぼ解決済みだと思っていたが、結果PDFのMRC圧縮のためのライブラリや実装を探している

    • 商用製品は高価で、画像レイヤーを分離・圧縮して再結合するのは難しい問題だ