PDFからのデータ抽出が依然として難しい理由

(arstechnica.com)

3 ポイント投稿者 GN⁺ 2025-03-20 | 1件のコメント | WhatsAppで共有

OCR（光学文字認識）の限界

PDFファイルには科学研究や政府記録などの重要なデータが含まれているが、形式が固定的なため、機械が読み取って分析するのが難しい
PDFは印刷レイアウトに合わせて作られた形式であるため、デジタル分析には適していない
多くのPDFは情報の画像を含んでいるため、これをデータに変換するにはOCRソフトウェアが必要になる
古い文書や手書き文書では、OCRの性能がさらに低下する

非構造化データの問題

世界中の組織データの約80〜90%は非構造化データとして保存されており、PDFに含まれていることが多い
2カラムレイアウト、表、グラフ、画質の低いスキャン画像からのデータ抽出は特に難しい
とりわけ科学研究、歴史文書の保存、カスタマーサービス、AIシステムにおける技術文献へのアクセス確保で大きな問題が生じる

分野別の影響

政府記録、裁判所、警察、社会サービスなどの公共機関の運営に影響する
保険や銀行のような情報依存型産業では、PDFデータを変換するために時間とリソースを消費する

OCR技術の歴史

1970年代にレイ・カーツワイル（Ray Kurzweil）がパターンマッチングアルゴリズムに基づく商用OCRシステムを開発
Kurzweil Reading Machineは、視覚障害者向けに文字認識機能を提供した
従来のOCRシステムは、明暗パターンを認識して文字へ変換する方式
複雑なフォント、複数カラムのレイアウト、表などでは性能低下が発生する
従来のOCRは誤りが予測しやすく修正しやすい一方で、限界もある

AIベースOCRの台頭

マルチモーダルLLM（大規模言語モデル）は、画像とテキストを統合してデータ抽出を行う
OpenAI、Google、Metaなどのモデルは、文書の視覚要素とテキスト文脈を同時に認識できる
従来のOCRが文字単位のパターンマッチング方式であるのに対し、AIは文書レイアウトと文脈を認識して処理する
AmazonのTextractは従来型OCR方式だが、LLMはより広い文脈で文書を分析できる
複雑なレイアウト、表、キャプションなどをより適切に処理する

新しいLLMベースOCRの試み

フランスのAI企業Mistralは、LLMベースの文書処理APIであるMistral OCRをリリース
複雑なレイアウトの文書からテキストと画像を抽出することを目指している
性能上の問題も発生しており、古い文書の表処理に失敗したり数値エラーが起きたりする
筆記体認識でも問題が発生し、AIが任意の内容を生成してしまう（ハルシネーション）
GoogleのGemini 2.0が現時点で最も優れた性能を示しており、複雑な文書でも誤りが少ない

LLMベースOCRの問題点

LLMは確率ベースのモデルであるため、誤りが発生する可能性が高い
文書レイアウトが繰り返されると、行が欠落する現象が起きる
LLMがユーザープロンプトと文書内容の区別に失敗し、誤った解釈をする可能性がある
表で誤った値の対応付けが起きると致命的なエラーとなり、金融、法務、医療分野で大きな問題を招く
任意のテキスト生成という問題があるため、人間によるレビューが必要

今後の課題

完璧なOCRソリューションはまだ存在しない
GoogleやOpenAIなどは、文脈認識型AI製品を通じて性能改善を進めている
AI企業はPDFからのデータ抽出を通じて、AI学習用データの確保を期待している
AIがPDFデータを完全に処理できるようになれば、データ分析の新しい時代が開かれる可能性がある

1件のコメント

sixmen 2025-03-20

「PDFは印刷レイアウトに合わせて作られた形式であるため、デジタル分析には適していない」

HWPにも似たような問題があると思います。HWPは今でも優れたソフトウェアだと思いますが、基本的に出版向けなので分析が難しいですね。

一方でWordは、出力物を作る用途で使うにはひどいものの、そのぶん内容に集中できるので、かえってWeb/AI時代にはよりうまく適合したように思います。