43 ポイント 投稿者 xguru 2025-10-21 | 6件のコメント | WhatsAppで共有
  • 文書解析に最適化された超小型ビジョン言語モデル(VLM) で、韓国語を含む109言語をサポートし、数式、表、グラフ、手書き文字などの複雑な要素を正確に認識
  • 中核モデル PaddleOCR-VL-0.9B は、NaViTベースの動的解像度ビジュアルエンコーダERNIE-4.5-0.3B言語モデル を組み合わせ、高精度な認識と高速な推論を同時に実現
  • 小型ながら強力な VLMアーキテクチャ により、計算効率を維持しつつ従来の大規模モデル級の認識性能を確保
  • OmniDocBench などで既存のパイプラインベースモデルを上回る SOTA(最高水準の性能) を記録
  • 韓国語・中国語・英語・日本語 はもちろん、ロシア語・アラビア語・ヒンディー語・タイ語 など多様な文字体系をサポートし、世界中の文書処理自動化に活用可能
  • 軽量構造によりGPUリソース使用量が少なく、Docker・CLI・Python APIを通じて容易にデプロイおよび統合可能
  • 72B級のマルチモーダルモデルを一部項目で上回り、実運用環境にすぐ適用可能な多言語文書処理ソリューション

6件のコメント

 
helio 2025-10-21

PaddleOCRなら商用で使っているところもあるんじゃないですか??

 
tsboard 2025-10-21

わあ、すごいですね……これなら複雑な表がある文書もすぐに認識できそうですね

 
xguru 2025-10-21

一部の商用OCRエンジンよりもはるかに優れているという話です。

 
yeorinhieut 2025-10-21

今回、deepseek ocrも出ていたようですが、性能比較が気になりますね

 
yangeok 2025-10-21

多言語が同時に使えるなら最高ですね、、

 
forgotdonkey456 2025-10-21

中国の民間企業がこの程度のモデルを出せるなら、NSAは情報収集のためにもっと優れた(あるいは狂ったような)OCRモデルを持っているのではないか、と予想するコメント