Mistral OCR公開 - 最高水準の文書理解API
(mistral.ai)- Mistral OCRは世界最高水準の文書理解APIで、既存モデルよりも文書をより正確に理解・分析する能力を提供
- PDFおよび画像からテキスト、メディア、数式、テーブルを抽出し、構造化された出力に変換
- APIは現在1000ページ/1ドル(バッチ処理時は1ページあたりのコストが半額)で提供
Mistral OCRの主な特徴
- 複雑な文書理解能力: 表、画像、数式、LaTeX書式まで正確に解釈
- 多言語・マルチモーダル対応: 多様な言語、フォント、スクリプトをサポート
- 業界最高水準の性能: 他のOCRモデルより高い精度を記録
- 最高速: 単一ノードで毎分2000ページ処理可能
- 文書をプロンプトとして活用可能: JSONなどの構造化出力をサポート
- オンプレミス(Self-host)オプションを提供: 機密文書処理を求める企業に適する
複雑な文書理解
- Mistral OCRは科学論文、グラフ、数式、表、画像を含む文書を深く分析可能
- サンプルノートブックで、OCRがPDFからテキストと画像をどのように抽出するか確認可能(サンプル)
性能比較(ベンチマーク)
Mistral OCRは他の主要OCRモデルと比較した際、総合性能で最も高いスコアを記録
- 総合性能(Overall): 94.89(他モデルより高い数値)
- 数式(Math)解析性能: 94.29(GPT-4oより7ポイント以上高い)
- 多言語認識性能: 89.55
- スキャン文書(Scanned)処理性能: 98.96
- テーブル(Table)認識性能: 96.12(他モデル比で最も優秀)
多言語対応
Mistral OCRは世界中のさまざまな言語とスクリプトを処理可能。主要モデルと比較するとすべての言語で最高のOCR性能を記録
- ロシア語(ru): 99.09(Azure OCR 97.35、Google Doc AI 95.56)
- フランス語(fr): 99.20(Azure 97.50、Google 96.36)
- 中国語(zh): 97.11(Azure 91.40、Google 90.89)
- ドイツ語(de): 99.51(Azure 98.39、Google 97.09)
高速処理
- Mistral OCRは既存のOCRモデルより軽量で、単一ノードで最大2000ページ/分の処理が可能
- 大量文書処理が必要な環境で、継続的な学習と改善を支援
文書をプロンプトとして活用(Doc-as-prompt)
- 文書から特定情報を抽出し、JSONなどの構造化出力を生成可能
- 抽出データを後続のAIプロセスと連携して自動化可能
- 例: 法務文書から特定条項を抽出した後、AIチャットボットの応答を生成
オンプレミス(Self-host)オプション
- 企業内の機密文書処理が必要な場合はセルフホスティングが可能
- データプライバシーとセキュリティが重要な機関・企業に適する
主な活用事例
- 科学研究のデジタル化: 論文やジャーナルをAIが処理できる形式に変換し、研究協業を加速
- 歴史・文化遺産の保存: 博物館や非営利団体が歴史的文書をデジタル化し、保存・共有可能
- 顧客サービスの改善: マニュアルや文書をインデックス化し、顧客対応速度を向上
- デザイン、教育、法務文書でのAI活用: エンジニアリング図面、講義資料、規制文書などをインデックス化し、AIベースの情報検索が可能
2件のコメント
韓国語の性能に関する内容はありませんが、試してみたところ悪くなさそうです
Hacker Newsのコメント
「悪くない」という意見がある。しかし、依然としてハルシネーションが発生する
MistralとMarkerの性能比較のためのベンチマークを部分的に実行した
OCR技術の進歩によって、論文や教科書を読むことがより簡単になるだろうという期待がある
OCR技術はほぼ解決された状態に近づいている
医療系教科書をPDFからMDに変換する場合、MinerU/PDF-Extract-Kitの結果のほうが良いという意見がある
技術が進歩し、PDFを編集できるようになった日が来たという意見がある
非常に高速で、GoogleやClaudeなどより正確だという意見がある
特定モデルではなく汎用VLMを使う場合、特定のケースに合わせて調整しにくいという欠点がある
VLM OCRがなぜハルシネーションを起こすのかについて、簡単な説明を探している