Qwen-2.5-32Bがいま最強のオープンソースOCRモデル

(github.com/getomni-ai)

8 ポイント投稿者 GN⁺ 2025-04-04 | 1件のコメント | WhatsAppで共有

OCR性能を分析するOmni OCRベンチマークで、最近公開されたQwen 2.5 VL（72B、32B）、Gemma-3-27B、DeepSeek-v3-0324、mistral-ocrなどのモデルを含めて比較
Qwen 2.5 VL 72b/32b モデルが最も高い精度を記録
- 両モデルとも約75%の精度で、GPT-4o級の性能を示す
- Qwen 72bは32bより0.4%高い精度を記録したが、実質的には誤差範囲内の近い性能
2つのQwenモデルはmistral-ocr（72.2%）の性能を上回る
- mistral-ocrはOCR特化で訓練されたモデルであるにもかかわらず、Qwenに及ばなかった
Gemma-3（27B）モデルは**42.9%**という低い精度
- Gemini 2.0アーキテクチャベースであるにもかかわらず低性能で、やや意外な結果

Omni OCR Benchmark

OCRおよびデータ抽出機能を比較するベンチマークツールで、GPT-4oのような大規模マルチモーダルモデルのテキストおよびJSON抽出精度を評価
このベンチマークの目標は、従来のOCRプロバイダーとマルチモーダル言語モデル全般にわたるOCR精度の包括的なベンチマークを公開すること
評価データセットと方法論はどちらもオープンソースで提供されており、追加のプロバイダーを含めてこのベンチマークを拡張することを推奨

1件のコメント

GN⁺ 2025-04-04

Hacker Newsの意見

32bは出力がより人間にとって扱いやすく、数学的推論に優れており、細かな理解を助けるちょっとした調整機能も有用に見える
Qwen2.5-VL-72bは2か月前にリリースされ、手書き認識について熱のこもったコメントがあった
- このモデルは、AIに対する懐疑や不満を乗り越えさせてくれた興味深いリリースだった
- リリースノートはよく整理されており、ブログ記事も素晴らしい
QwenのHTML出力が興味深かった
- HTML形式でバウンディングボックスを提供し、視覚的フィードバックを素早く構築したり、構造化データを簡単に活用できるようにする
- 従来のOCRは、バウンディングボックス座標を提供する点でLLMに対して大きな利点がある
95%を超える精度に達するまでは、人間による二重確認と修正が必要であり、バウンディングボックスがなければ現実的ではない
"Qwen2.5-VL-32b-Instruct -8bit" のMLX版をLM Studio経由でダウンロード中で、OCRのサイドプロジェクトに使う予定
コストとレイテンシも精度以外に測定していたなら、その結果を共有してほしい
GeminiのOCR機能には今でも驚かされており、Qwenは急速に進化している
複数のモデルを比較して作業しているが、Qwenの最新モデルは以前よりはるかに安定していて微調整しやすい
OpenAIのOCR性能は長い間改善されておらず、これは奇妙でいら立たしい
Qwen 2.5 VL 72bは一般的なビジョンではGeminiを上回り、ローカルで実行できる
macOSでOCR APIを試しており、これらのLLMと比較してみたい
Tesseractは手書き以外のすべてで99%の精度を達成できる
LLMを使う利点があるのか気になる
Qwenのテスト結果には非常に感銘を受けており、人々はこれを過小評価していると思う
複数のファイルを単一のプロンプトで処理するために、LLMインターフェースをどう構成しているのか気になる
Tylerとチームの素晴らしい仕事だ

Qwen-2.5-32Bがいま最強のオープンソースOCRモデル

Omni OCR Benchmark

関連記事

1件のコメント

Hacker Newsの意見