PaddleOCR-VL - Baiduが公開した0.9B超小型ビジョン言語モデルの多言語OCR

xguru · 2025-10-21T09:31:02+09:00

文書解析に最適化された超小型ビジョン言語モデル（VLM）で、韓国語を含む109言語をサポートし、数式、表、グラフ、手書き文字などの複雑な要素を正確に認識中核モデル PaddleOCR-VL-0.9B は、NaViTベースの動的解像度ビジュアルエンコーダと ERNIE-4.5-0.3B言語モデルを組み合わせ、高精度な認識と高速な推論を同時に実現小型ながら強力な VLMアーキテクチャにより、計算効率を維持しつつ従来の大規模モデル級の認識性能を確保 OmniDocBench などで既存のパイプラインベースモデルを上回る SOTA（最高水準の性能）を記録韓国語・中国語・英語・日本語はもちろん、ロシア語・アラビア語・ヒンディー語・タイ語など多様な文字体系をサポートし、世界中の文書処理自動化に活用可能軽量構造によりGPUリソース使用量が少なく、Docker・CLI・Python APIを通じて容易にデプロイおよび統合可能 72B級のマルチモーダルモデルを一部項目で上回り、実運用環境にすぐ適用可能な多言語文書処理ソリューション

(huggingface.co)

43 ポイント投稿者 xguru 2025-10-21 | 6件のコメント | WhatsAppで共有

文書解析に最適化された超小型ビジョン言語モデル（VLM） で、韓国語を含む109言語をサポートし、数式、表、グラフ、手書き文字などの複雑な要素を正確に認識
中核モデル PaddleOCR-VL-0.9B は、NaViTベースの動的解像度ビジュアルエンコーダ と ERNIE-4.5-0.3B言語モデル を組み合わせ、高精度な認識と高速な推論を同時に実現
小型ながら強力な VLMアーキテクチャ により、計算効率を維持しつつ従来の大規模モデル級の認識性能を確保
OmniDocBench などで既存のパイプラインベースモデルを上回る SOTA（最高水準の性能） を記録
韓国語・中国語・英語・日本語 はもちろん、ロシア語・アラビア語・ヒンディー語・タイ語 など多様な文字体系をサポートし、世界中の文書処理自動化に活用可能
軽量構造によりGPUリソース使用量が少なく、Docker・CLI・Python APIを通じて容易にデプロイおよび統合可能
72B級のマルチモーダルモデルを一部項目で上回り、実運用環境にすぐ適用可能な多言語文書処理ソリューション

6件のコメント

helio 2025-10-21

PaddleOCRなら商用で使っているところもあるんじゃないですか??

tsboard 2025-10-21

わあ、すごいですね……これなら複雑な表がある文書もすぐに認識できそうですね

xguru 2025-10-21

一部の商用OCRエンジンよりもはるかに優れているという話です。

yeorinhieut 2025-10-21

今回、deepseek ocrも出ていたようですが、性能比較が気になりますね

yangeok 2025-10-21

多言語が同時に使えるなら最高ですね、、

forgotdonkey456 2025-10-21

中国の民間企業がこの程度のモデルを出せるなら、NSAは情報収集のためにもっと優れた（あるいは狂ったような）OCRモデルを持っているのではないか、と予想するコメント

PaddleOCR-VL - Baiduが公開した0.9B超小型ビジョン言語モデルの多言語OCR

関連記事

6件のコメント