PaddleOCR-VL - Baiduが公開した0.9B超小型ビジョン言語モデルの多言語OCR
(huggingface.co)- 文書解析に最適化された超小型ビジョン言語モデル(VLM) で、韓国語を含む109言語をサポートし、数式、表、グラフ、手書き文字などの複雑な要素を正確に認識
- 中核モデル PaddleOCR-VL-0.9B は、NaViTベースの動的解像度ビジュアルエンコーダ と ERNIE-4.5-0.3B言語モデル を組み合わせ、高精度な認識と高速な推論を同時に実現
- 小型ながら強力な VLMアーキテクチャ により、計算効率を維持しつつ従来の大規模モデル級の認識性能を確保
- OmniDocBench などで既存のパイプラインベースモデルを上回る SOTA(最高水準の性能) を記録
- 韓国語・中国語・英語・日本語 はもちろん、ロシア語・アラビア語・ヒンディー語・タイ語 など多様な文字体系をサポートし、世界中の文書処理自動化に活用可能
- 軽量構造によりGPUリソース使用量が少なく、Docker・CLI・Python APIを通じて容易にデプロイおよび統合可能
- 72B級のマルチモーダルモデルを一部項目で上回り、実運用環境にすぐ適用可能な多言語文書処理ソリューション
6件のコメント
PaddleOCRなら商用で使っているところもあるんじゃないですか??
わあ、すごいですね……これなら複雑な表がある文書もすぐに認識できそうですね
一部の商用OCRエンジンよりもはるかに優れているという話です。
今回、deepseek ocrも出ていたようですが、性能比較が気になりますね
多言語が同時に使えるなら最高ですね、、
中国の民間企業がこの程度のモデルを出せるなら、NSAは情報収集のためにもっと優れた(あるいは狂ったような)OCRモデルを持っているのではないか、と予想するコメント