2 ポイント 投稿者 GN⁺ 2025-12-20 | 1件のコメント | WhatsAppで共有
  • ドキュメント処理の精度と効率性を同時に向上させた次世代OCRモデルで、さまざまな文書タイプで高い認識性能を提供
  • 旧バージョン比で全体性能74%向上を記録し、手書き文字・フォーム・複雑な表・スキャン文書などで優れた結果を達成
  • HTMLベースの表再構成とMarkdown出力をサポートし、文書の構造情報まで保持可能
  • 1,000ページあたり2ドル、大量処理時は50%割引でコスト効率を確保
  • 企業向け大規模パイプラインからインタラクティブなドキュメントワークフローまで幅広く活用できるOCR技術で、生成AIベースのデータ活用を支える中核インフラとして浮上

主な性能と特徴

  • Mistral OCR 3はさまざまな文書からテキストと埋め込み画像の抽出を高精度で実行
    • Markdown形式での出力とHTML表再構成機能をサポートし、文書の内容だけでなく構造まで認識可能
    • モデルサイズが小さく、競合ソリューションより低コストで提供され、1,000ページあたり2ドル、Batch API利用時は1ドルで利用可能
  • mistral-ocr-2512モデルをAPIに統合するか、Document AI Playground UIを通じてPDF・画像をテキストまたは構造化JSONに変換可能

性能向上とベンチマーク

  • 内部ベンチマークでMistral OCR 2比74%の勝率を記録
    • テストは実際の顧客のビジネス事例を基に実施され、精度はfuzzy-match metricで評価
  • エンタープライズ向け文書処理ソリューションおよびAIベースOCRを上回る精度を達成

主なアップグレード領域

  • 手書き認識: 筆記体、混在した注釈、印刷済みフォーム上の手書き文字を正確に解釈
  • フォーム処理: ボックス、ラベル、手書き入力、複雑なレイアウトの認識を向上
  • スキャン文書と複雑文書: 圧縮劣化、歪み、低解像度、背景ノイズへの高い耐性を確保
  • 複雑な表構造: 見出し、結合セル、複数行・列の階層を含む表を**HTMLタグ(colspan/rowspan)**で完全再現
  • あらゆる言語と文書形式でMistral OCR 2比の全体性能向上

活用事例と応用分野

  • 大規模な企業文書パイプラインインタラクティブなドキュメントワークフローの両方に適合
    • テキスト・画像抽出後のMarkdown変換、フォーム・請求書の自動解析、文書理解パイプラインの構築、手書き文書・歴史資料のデジタル化などを支援
  • 初期顧客は請求書を構造化フィールドに変換したり、企業アーカイブのデジタル化、技術・科学レポートのテキスト抽出、エンタープライズ検索の改善に活用中
  • IDCのTim Lawは「OCRは生成AIとエージェント型AIの基盤技術であり、高精度かつ低コストのテキスト抽出能力がデータ活用の競争力を左右する」と述べた

アクセス方法と互換性

  • APIまたはDocument AI Playgroundインターフェースを通じてすぐに利用可能
  • Mistral OCR 2と完全互換で、既存システムから容易にアップグレード可能
  • 詳細ドキュメントはmistral.ai/docsで確認可能

1件のコメント

 
GN⁺ 2025-12-20
Hacker Newsの意見
  • Twitterで見たこの動画を見て、Mistralがなぜ最新のSoTAモデルと比較しないのか疑問に思った
    Chandra、dots.ocr、olmOCR、MinerU、Monkey OCR、PaddleOCRのようなモデルと比較するとよいと思う

    • 文書抽出作業を多くやってきた立場からすると、ツイートの口調は少し鼻につくが、内容自体はその通りだ
      MistralはVLMベースのモデルではなく、一般的なコンピュータビジョンサービスと比較している
      前者は文書理解力が高いが、後者は正確なbounding boxを提供する
      失敗のしかたも異なる — VLMは文全体を誤読することがあり、ビジョンモデルは単語内のtypo程度にとどまる
    • リンクを開いてみたが、Twitterの雰囲気が以前よりずっとおかしくなった感じだった
    • Qwen 3 VL 235B-A22Bとの比較も見てみたい。私の経験ではMinerUよりずっと良かった
  • ここ3か月ほどでオープンソースのOCRモデルがものすごく多く出てきた
    特に10億パラメータ未満のモデルでもエッジデバイス上で十分動く
    paddleOCR-VL、olmOCR-2、chandra、dots.ocrのようなモデルとも比較してほしい
    OCRやCV関連のリーダーボードやアリーナがほとんどないのは残念だ

    • 1か月くらい前にocrarena.aiというプロジェクトが投稿されていた
      llmarenaのようにモデル同士を対戦させる方式だが、まだMistralは更新されていない
      現時点ではGeminiが上位にいる
    • MistralOCRの利点はシンプルな料金体系だ — 1,000ページあたり1ドルで、サーバーホスティングAPIを提供している
      他のOCRはトークンベースなので、実際のコスト計算が難しい
      たとえばGemini 3.0 flashは見た目上は価格が近いが、実際にトークン単位で見ると3倍ほど高い
    • paddleOCRのインストールを試みたが、12GBのPyTorch依存関係を入れている途中でバージョン衝突が起きて断念した
      Claudeにroot権限を渡して代わりにインストールさせたが、私よりずっと楽しそうにやっているようだった
      open web UIのインストール時にも似た経験があり、結局必要な機能だけをHTML 100行で自作した
      OCRもそういうふうに簡単に作れたらいいのにと思う
    • codesota.com/ocrも参考になる
  • Mistral OCR 3は大規模な企業向けパイプラインに適していると言うが、**精度79%**では信頼しにくい
    科学ジャーナルの作業をしている立場では、2.9+0.5と29+0.5のような認識ミスが致命的だ
    結局、すべての段階で人間による検証が必要になる

    • こういうケースではdatalab.toがかなり良かった
    • 79%は精度ではなく勝率の数値に見える
  • 私はShipibo(ペルー先住民言語)-スペイン語辞書をShipibo-英語辞書に変換するプロジェクトをしている
    PDFスキャンの品質が良くなく、2段レイアウトやヘッダー/フッターのせいでOCRが頻繁に失敗する
    Shipiboの例文とスペイン語の定義を分離し、英語だけに翻訳しなければならないので複雑だ
    新しいOCR/LLMの話題が出るたびに試しているが、毎回がっかりしている

    • Ayahuascaの伝統研究に興味があるか少し気になる
      Shipibo文化では一般人ではなくmaestraたちがAyahuascaを服用して病気を診断していたという
      植物ごとに**dieta(禁欲食)**を行い、石けんの使用、性行為、塩分摂取などを制限する
      伝統的には1年以上続くこともあり、現代では数週間程度に短縮されている
      植物医療をここまで深く研究している点が印象的だった
  • 数学の教材をLaTeX数式を含むmarkdownに変換したいが、まだ満足できるOCRモデルがない
    MistralのOCR playgroundで直接テストしてみるつもりだ

    • 私は数千の文書をGemini Pro 3 visionモデルで処理したが、これまで使ったどのOCRよりも圧倒的に正確だった
      数式も完璧にLaTeXへ変換された
    • 結果がどうだったかぜひ共有してほしい
  • 私は画像内翻訳(in-place translation)を探している
    Mistral OCR3はデータ抽出中心なので、自分の用途には合わない
    海外のアートブックのテキストを絵の上にそのまま翻訳して表示したいのだが、既存の有料サービスは
    非標準のテキスト配置
    のせいで失敗する
    今はGoogle Lensで画面をかざしながら翻訳しているが、不便だ
    Chrome内蔵のLensも手動選択が必要なので完全自動ではない
    こういう機能の進展について何か知っている人はいる?

    • 有料でもよければDEEPLやWordの文書翻訳機能がかなり使える
  • Mistralは最近、AI機能の周辺部分だけを追っている感じがする
    OAI、Google、Anthropicに比べて後れを取っているようで、EUレベルの投資も足りないように見える

    • フォーム処理のような実用的機能こそ、人々が実際に必要としている部分だ
      ミーム生成よりはるかに価値がある
    • 先行企業をそのまま追いかけるのは危険だ
      まだ収益モデルが確立されていないので、Mistralは中核モデルの品質に集中するのが正しい
      EU内の人材を維持しつつ、そこそこのモデルを作るのが現実的な目標だ
    • EUはMistralに大いに「投資」している — 半分は課税、残りは規制の議論に使われている
    • EUの規制が足かせになっているので、結局は米国企業に買収される可能性が高い
    • それでも、他社のやっていることをそのままなぞるよりはましだと思う
  • 複数のオープンソースOCR(Paddle、MinerU、MonkeyOCRなど)よりMistralの性能が低いという評価を見た
    codesota.com/ocr参照

  • MathPixの代替としてMistralをテスト中だ
    このPythonスクリプトはWindowsでスニッピング後、クリップボード画像をMistralに送り、Markdown結果を自動で貼り付けるプロトタイプだ

  • Mistralの最大の問題は顧客問い合わせへの無反応
    「価格について問い合わせ」に隠れるやり方では、SoTAより優れていても意味がない

    • 私も営業担当者との対面が大嫌いだ
      むしろ高くて性能が劣っていても、そうしたプロセスのないサービスを選ぶ