3 ポイント 投稿者 GN⁺ 2024-11-17 | 1件のコメント | WhatsAppで共有
  • プロジェクト紹介

    • このプロジェクトは llama-ocrTogether AIOCR を使用して、画像を構造化されたMarkdownに変換するツール。
    • ユーザーは画像をアップロードしてテキストを抽出し、Markdown形式に変換できる。
  • 主な機能

    • 画像アップロード機能を提供
    • 画像からテキストを抽出してMarkdownに変換
    • サンプル画像を提供し、ユーザーが機能をテストできる
  • コード例

    • llama-ocr ライブラリを使用して画像からテキストを抽出するコード例を提供
    • ocr 関数に画像ファイルのパスとAPIキーを渡してMarkdownを生成する
  • プロジェクトの重要性

    • このプロジェクトは、画像からテキストを簡単に抽出してMarkdownに変換できる機能を提供し、ドキュメント作業の効率を高める。
    • 既存のOCRツールと比較して、手軽な使いやすさとMarkdown変換機能を提供する。

1件のコメント

 
GN⁺ 2024-11-17
Hacker Newsの意見
  • llama-ocrの作者は、シンプルなAPIで画像を構造化されたMarkdownに変換するツールを開発した。今後はPDF解析とJSON出力機能の追加を予定している

    • ウェブトゥーンの例では、大文字の会話がパネルごとに異なって出力される問題が見つかった
    • 古いスライドのデジタル化に使用し、スライドの黄色味は実際にはホワイトバランスの問題だった
    • モデルのバイアスを示す例として、スライドを骨董品と誤認し、誤ったタイトルを生成した
    • APIのファイルサイズや解像度の制限が文書化されていない
  • llama3.2-visionを使ってチャリティーオークションの入札用紙を処理したが、筆跡が良くなくてもかなり正確だった

    • CSVとして一貫して出力されない点が不便だった
    • 問題の規模は100ページほどで、手作業での整理が可能だった
  • 一般的なOCRモデルは家族写真のテキストをデジタル化するのには適しておらず、Gemini Flashが最も優れていた

    • それでも誤りが多く、手作業のほうが速い
  • 「Show HN」の投稿として適切か疑問であり、Llamaという名前との関連性が薄い

  • 遺伝的アルゴリズムで生成した文章を実際の円として描いたが、テキストとして認識されなかった

  • 複数ページのPDFをアップロードしたが、未対応であることが通知された

  • HNのスクリーンショットをアップロードしたが、Markdownコードは出力されなかった

  • ChatGPT API経由では日本語OCRがうまく動作する

  • Walmartのレシートで数字の9を0と誤認した