Mistral OCR公開 - 最高水準の文書理解API

(mistral.ai)

13 ポイント投稿者 GN⁺ 2025-03-07 | 2件のコメント | WhatsAppで共有

Mistral OCRは世界最高水準の文書理解APIで、既存モデルよりも文書をより正確に理解・分析する能力を提供
PDFおよび画像からテキスト、メディア、数式、テーブルを抽出し、構造化された出力に変換
APIは現在1000ページ/1ドル（バッチ処理時は1ページあたりのコストが半額）で提供

Mistral OCRの主な特徴

複雑な文書理解能力: 表、画像、数式、LaTeX書式まで正確に解釈
多言語・マルチモーダル対応: 多様な言語、フォント、スクリプトをサポート
業界最高水準の性能: 他のOCRモデルより高い精度を記録
最高速: 単一ノードで毎分2000ページ処理可能
文書をプロンプトとして活用可能: JSONなどの構造化出力をサポート
オンプレミス（Self-host）オプションを提供: 機密文書処理を求める企業に適する

複雑な文書理解

Mistral OCRは科学論文、グラフ、数式、表、画像を含む文書を深く分析可能
サンプルノートブックで、OCRがPDFからテキストと画像をどのように抽出するか確認可能（サンプル）

性能比較（ベンチマーク）

Mistral OCRは他の主要OCRモデルと比較した際、総合性能で最も高いスコアを記録

総合性能（Overall）: 94.89（他モデルより高い数値）
数式（Math）解析性能: 94.29（GPT-4oより7ポイント以上高い）
多言語認識性能: 89.55
スキャン文書（Scanned）処理性能: 98.96
テーブル（Table）認識性能: 96.12（他モデル比で最も優秀）

多言語対応

Mistral OCRは世界中のさまざまな言語とスクリプトを処理可能。主要モデルと比較するとすべての言語で最高のOCR性能を記録

ロシア語（ru）: 99.09（Azure OCR 97.35、Google Doc AI 95.56）
フランス語（fr）: 99.20（Azure 97.50、Google 96.36）
中国語（zh）: 97.11（Azure 91.40、Google 90.89）
ドイツ語（de）: 99.51（Azure 98.39、Google 97.09）

高速処理

Mistral OCRは既存のOCRモデルより軽量で、単一ノードで最大2000ページ/分の処理が可能
大量文書処理が必要な環境で、継続的な学習と改善を支援

文書をプロンプトとして活用（Doc-as-prompt）

文書から特定情報を抽出し、JSONなどの構造化出力を生成可能
抽出データを後続のAIプロセスと連携して自動化可能
例: 法務文書から特定条項を抽出した後、AIチャットボットの応答を生成

オンプレミス（Self-host）オプション

企業内の機密文書処理が必要な場合はセルフホスティングが可能
データプライバシーとセキュリティが重要な機関・企業に適する

主な活用事例

科学研究のデジタル化: 論文やジャーナルをAIが処理できる形式に変換し、研究協業を加速
歴史・文化遺産の保存: 博物館や非営利団体が歴史的文書をデジタル化し、保存・共有可能
顧客サービスの改善: マニュアルや文書をインデックス化し、顧客対応速度を向上
デザイン、教育、法務文書でのAI活用: エンジニアリング図面、講義資料、規制文書などをインデックス化し、AIベースの情報検索が可能

Mistral OCRを試す

Mistral OCRはLe Chatで無料体験可能（Le Chat）
APIはla Plateformeで利用可能（APIを使う）
オンプレミス導入および企業向けカスタムソリューションも提供（問い合わせ）

2件のコメント

taeha 2025-03-13

韓国語の性能に関する内容はありませんが、試してみたところ悪くなさそうです

GN⁺ 2025-03-07

Hacker Newsのコメント

「悪くない」という意見がある。しかし、依然としてハルシネーションが発生する
- 例として提示された画像では、中央ブロックのテキストは正確に出力されていた
- しかし次のブロックでは、前のブロックのテキストの一部が繰り返され、次のブロックの一部が誤って含まれ、存在しない単語が生成されていた
- 正しいテキストは "Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679." である
MistralとMarkerの性能比較のためのベンチマークを部分的に実行した
- 375個のサンプルでLLMが審査した結果、Mistralは4.32点、Markerは4.41点を記録した
- MarkerはH100で毎秒20〜120ページを推論できる
- サンプルとベンチマークコードはそれぞれHugging FaceとGitHubで確認できる
- Mistral OCRは印象的なモデルだが、OCRの問題は依然として難しい
OCR技術の進歩によって、論文や教科書を読むことがより簡単になるだろうという期待がある
- 図の参照と実際の図を結び付けられるため、読書の流れを妨げない
- HTMLへのきれいな変換が可能になり、定義をクリックしたり、理解を確認する質問を追加したりできる
- Andy MatuschakのOrbit SRSをPDFに自動統合できる可能性もある
OCR技術はほぼ解決された状態に近づいている
- しかし、ビジネスで生のOCR出力から文書処理へ移行するには、依然として大きな隔たりがある
- LLMやVLMは魔法ではなく、100%の自動化を期待するのは無理がある
- データセットの構築、パイプラインの調整、不確実性の検知、人手による介入と修正などが必要である
医療系教科書をPDFからMDに変換する場合、MinerU/PDF-Extract-Kitの結果のほうが良いという意見がある
- 記事内のColabリンクは動作しないが、ドキュメント内で動作するリンクを見つけた
技術が進歩し、PDFを編集できるようになった日が来たという意見がある
- しかし依然として、個人データを含むPDFアーカイブのOCR問題は解決されていない
非常に高速で、GoogleやClaudeなどより正確だという意見がある
- 価格は1000ページあたり$1、バッチの場合は2000ページ単位で価格設定されている
- PDFをMarkdownに変換するのに優れているという意見がある
特定モデルではなく汎用VLMを使う場合、特定のケースに合わせて調整しにくいという欠点がある
- たとえばGeminiを使って、抽出されたMarkdownに非常に具体的な代替テキストを追加している
- Gemini Flashより2〜3倍のコストがかかるが、性能向上が重要である
VLM OCRがなぜハルシネーションを起こすのかについて、簡単な説明を探している