- OCR性能を分析するOmni OCRベンチマークで、最近公開されたQwen 2.5 VL(72B、32B)、Gemma-3-27B、DeepSeek-v3-0324、mistral-ocrなどのモデルを含めて比較
- Qwen 2.5 VL 72b/32b モデルが最も高い精度を記録
- 両モデルとも約75%の精度で、GPT-4o級の性能を示す
- Qwen 72bは32bより0.4%高い精度を記録したが、実質的には誤差範囲内の近い性能
- 2つのQwenモデルはmistral-ocr(72.2%)の性能を上回る
- mistral-ocrはOCR特化で訓練されたモデルであるにもかかわらず、Qwenに及ばなかった
- Gemma-3(27B)モデルは**42.9%**という低い精度
- Gemini 2.0アーキテクチャベースであるにもかかわらず低性能で、やや意外な結果
Omni OCR Benchmark
- OCRおよびデータ抽出機能を比較するベンチマークツールで、GPT-4oのような大規模マルチモーダルモデルのテキストおよびJSON抽出精度を評価
- このベンチマークの目標は、従来のOCRプロバイダーとマルチモーダル言語モデル全般にわたるOCR精度の包括的なベンチマークを公開すること
- 評価データセットと方法論はどちらもオープンソースで提供されており、追加のプロバイダーを含めてこのベンチマークを拡張することを推奨
1件のコメント
Hacker Newsの意見
"Qwen2.5-VL-32b-Instruct -8bit"のMLX版をLM Studio経由でダウンロード中で、OCRのサイドプロジェクトに使う予定