8 ポイント 投稿者 GN⁺ 2025-04-04 | 1件のコメント | WhatsAppで共有
  • OCR性能を分析するOmni OCRベンチマークで、最近公開されたQwen 2.5 VL(72B、32B)、Gemma-3-27B、DeepSeek-v3-0324、mistral-ocrなどのモデルを含めて比較
  • Qwen 2.5 VL 72b/32b モデルが最も高い精度を記録
    • 両モデルとも約75%の精度で、GPT-4o級の性能を示す
    • Qwen 72bは32bより0.4%高い精度を記録したが、実質的には誤差範囲内の近い性能
  • 2つのQwenモデルはmistral-ocr(72.2%)の性能を上回る
    • mistral-ocrはOCR特化で訓練されたモデルであるにもかかわらず、Qwenに及ばなかった
  • Gemma-3(27B)モデルは**42.9%**という低い精度
    • Gemini 2.0アーキテクチャベースであるにもかかわらず低性能で、やや意外な結果

Omni OCR Benchmark

  • OCRおよびデータ抽出機能を比較するベンチマークツールで、GPT-4oのような大規模マルチモーダルモデルのテキストおよびJSON抽出精度を評価
  • このベンチマークの目標は、従来のOCRプロバイダーとマルチモーダル言語モデル全般にわたるOCR精度の包括的なベンチマークを公開すること
  • 評価データセットと方法論はどちらもオープンソースで提供されており、追加のプロバイダーを含めてこのベンチマークを拡張することを推奨

1件のコメント

 
GN⁺ 2025-04-04
Hacker Newsの意見
  • 32bは出力がより人間にとって扱いやすく、数学的推論に優れており、細かな理解を助けるちょっとした調整機能も有用に見える
  • Qwen2.5-VL-72bは2か月前にリリースされ、手書き認識について熱のこもったコメントがあった
    • このモデルは、AIに対する懐疑や不満を乗り越えさせてくれた興味深いリリースだった
    • リリースノートはよく整理されており、ブログ記事も素晴らしい
  • QwenのHTML出力が興味深かった
    • HTML形式でバウンディングボックスを提供し、視覚的フィードバックを素早く構築したり、構造化データを簡単に活用できるようにする
    • 従来のOCRは、バウンディングボックス座標を提供する点でLLMに対して大きな利点がある
  • 95%を超える精度に達するまでは、人間による二重確認と修正が必要であり、バウンディングボックスがなければ現実的ではない
  • "Qwen2.5-VL-32b-Instruct -8bit" のMLX版をLM Studio経由でダウンロード中で、OCRのサイドプロジェクトに使う予定
  • コストとレイテンシも精度以外に測定していたなら、その結果を共有してほしい
  • GeminiのOCR機能には今でも驚かされており、Qwenは急速に進化している
  • 複数のモデルを比較して作業しているが、Qwenの最新モデルは以前よりはるかに安定していて微調整しやすい
  • OpenAIのOCR性能は長い間改善されておらず、これは奇妙でいら立たしい
  • Qwen 2.5 VL 72bは一般的なビジョンではGeminiを上回り、ローカルで実行できる
  • macOSでOCR APIを試しており、これらのLLMと比較してみたい
  • Tesseractは手書き以外のすべてで99%の精度を達成できる
  • LLMを使う利点があるのか気になる
  • Qwenのテスト結果には非常に感銘を受けており、人々はこれを過小評価していると思う
  • 複数のファイルを単一のプロンプトで処理するために、LLMインターフェースをどう構成しているのか気になる
  • Tylerとチームの素晴らしい仕事だ