- ドキュメント処理の精度と効率性を同時に向上させた次世代OCRモデルで、さまざまな文書タイプで高い認識性能を提供
- 旧バージョン比で全体性能74%向上を記録し、手書き文字・フォーム・複雑な表・スキャン文書などで優れた結果を達成
- HTMLベースの表再構成とMarkdown出力をサポートし、文書の構造情報まで保持可能
- 1,000ページあたり2ドル、大量処理時は50%割引でコスト効率を確保
- 企業向け大規模パイプラインからインタラクティブなドキュメントワークフローまで幅広く活用できるOCR技術で、生成AIベースのデータ活用を支える中核インフラとして浮上
主な性能と特徴
- Mistral OCR 3はさまざまな文書からテキストと埋め込み画像の抽出を高精度で実行
- Markdown形式での出力とHTML表再構成機能をサポートし、文書の内容だけでなく構造まで認識可能
- モデルサイズが小さく、競合ソリューションより低コストで提供され、1,000ページあたり2ドル、Batch API利用時は1ドルで利用可能
- mistral-ocr-2512モデルをAPIに統合するか、Document AI Playground UIを通じてPDF・画像をテキストまたは構造化JSONに変換可能
性能向上とベンチマーク
- 内部ベンチマークでMistral OCR 2比74%の勝率を記録
- テストは実際の顧客のビジネス事例を基に実施され、精度はfuzzy-match metricで評価
- エンタープライズ向け文書処理ソリューションおよびAIベースOCRを上回る精度を達成
主なアップグレード領域
- 手書き認識: 筆記体、混在した注釈、印刷済みフォーム上の手書き文字を正確に解釈
- フォーム処理: ボックス、ラベル、手書き入力、複雑なレイアウトの認識を向上
- スキャン文書と複雑文書: 圧縮劣化、歪み、低解像度、背景ノイズへの高い耐性を確保
- 複雑な表構造: 見出し、結合セル、複数行・列の階層を含む表を**HTMLタグ(colspan/rowspan)**で完全再現
- あらゆる言語と文書形式でMistral OCR 2比の全体性能向上
活用事例と応用分野
- 大規模な企業文書パイプラインとインタラクティブなドキュメントワークフローの両方に適合
- テキスト・画像抽出後のMarkdown変換、フォーム・請求書の自動解析、文書理解パイプラインの構築、手書き文書・歴史資料のデジタル化などを支援
- 初期顧客は請求書を構造化フィールドに変換したり、企業アーカイブのデジタル化、技術・科学レポートのテキスト抽出、エンタープライズ検索の改善に活用中
- IDCのTim Lawは「OCRは生成AIとエージェント型AIの基盤技術であり、高精度かつ低コストのテキスト抽出能力がデータ活用の競争力を左右する」と述べた
アクセス方法と互換性
- APIまたはDocument AI Playgroundインターフェースを通じてすぐに利用可能
- Mistral OCR 2と完全互換で、既存システムから容易にアップグレード可能
- 詳細ドキュメントはmistral.ai/docsで確認可能
1件のコメント
Hacker Newsの意見
Twitterで見たこの動画を見て、Mistralがなぜ最新のSoTAモデルと比較しないのか疑問に思った
Chandra、dots.ocr、olmOCR、MinerU、Monkey OCR、PaddleOCRのようなモデルと比較するとよいと思う
MistralはVLMベースのモデルではなく、一般的なコンピュータビジョンサービスと比較している
前者は文書理解力が高いが、後者は正確なbounding boxを提供する
失敗のしかたも異なる — VLMは文全体を誤読することがあり、ビジョンモデルは単語内のtypo程度にとどまる
ここ3か月ほどでオープンソースのOCRモデルがものすごく多く出てきた
特に10億パラメータ未満のモデルでもエッジデバイス上で十分動く
paddleOCR-VL、olmOCR-2、chandra、dots.ocrのようなモデルとも比較してほしい
OCRやCV関連のリーダーボードやアリーナがほとんどないのは残念だ
llmarenaのようにモデル同士を対戦させる方式だが、まだMistralは更新されていない
現時点ではGeminiが上位にいる
他のOCRはトークンベースなので、実際のコスト計算が難しい
たとえばGemini 3.0 flashは見た目上は価格が近いが、実際にトークン単位で見ると3倍ほど高い
Claudeにroot権限を渡して代わりにインストールさせたが、私よりずっと楽しそうにやっているようだった
open web UIのインストール時にも似た経験があり、結局必要な機能だけをHTML 100行で自作した
OCRもそういうふうに簡単に作れたらいいのにと思う
Mistral OCR 3は大規模な企業向けパイプラインに適していると言うが、**精度79%**では信頼しにくい
科学ジャーナルの作業をしている立場では、2.9+0.5と29+0.5のような認識ミスが致命的だ
結局、すべての段階で人間による検証が必要になる
私はShipibo(ペルー先住民言語)-スペイン語辞書をShipibo-英語辞書に変換するプロジェクトをしている
PDFスキャンの品質が良くなく、2段レイアウトやヘッダー/フッターのせいでOCRが頻繁に失敗する
Shipiboの例文とスペイン語の定義を分離し、英語だけに翻訳しなければならないので複雑だ
新しいOCR/LLMの話題が出るたびに試しているが、毎回がっかりしている
Shipibo文化では一般人ではなくmaestraたちがAyahuascaを服用して病気を診断していたという
植物ごとに**dieta(禁欲食)**を行い、石けんの使用、性行為、塩分摂取などを制限する
伝統的には1年以上続くこともあり、現代では数週間程度に短縮されている
植物医療をここまで深く研究している点が印象的だった
数学の教材をLaTeX数式を含むmarkdownに変換したいが、まだ満足できるOCRモデルがない
MistralのOCR playgroundで直接テストしてみるつもりだ
数式も完璧にLaTeXへ変換された
私は画像内翻訳(in-place translation)を探している
Mistral OCR3はデータ抽出中心なので、自分の用途には合わない
海外のアートブックのテキストを絵の上にそのまま翻訳して表示したいのだが、既存の有料サービスは非標準のテキスト配置のせいで失敗する
今はGoogle Lensで画面をかざしながら翻訳しているが、不便だ
Chrome内蔵のLensも手動選択が必要なので完全自動ではない
こういう機能の進展について何か知っている人はいる?
Mistralは最近、AI機能の周辺部分だけを追っている感じがする
OAI、Google、Anthropicに比べて後れを取っているようで、EUレベルの投資も足りないように見える
ミーム生成よりはるかに価値がある
まだ収益モデルが確立されていないので、Mistralは中核モデルの品質に集中するのが正しい
EU内の人材を維持しつつ、そこそこのモデルを作るのが現実的な目標だ
複数のオープンソースOCR(Paddle、MinerU、MonkeyOCRなど)よりMistralの性能が低いという評価を見た
codesota.com/ocr参照
MathPixの代替としてMistralをテスト中だ
このPythonスクリプトはWindowsでスニッピング後、クリップボード画像をMistralに送り、Markdown結果を自動で貼り付けるプロトタイプだ
Mistralの最大の問題は顧客問い合わせへの無反応だ
「価格について問い合わせ」に隠れるやり方では、SoTAより優れていても意味がない
むしろ高くて性能が劣っていても、そうしたプロセスのないサービスを選ぶ