OlmOCR - PDFからテキストを抽出するオープンソースツール

xguru · 2025-03-03T09:51:15+09:00

PDFおよびJPG/PNG文書を、自然な読書順を維持したままプレーンテキストに変換するオープンソースツール大量の文書を高速に処理できるよう設計されており、表、数式、手書き文字などをサポート学術論文、技術文書、その他の参考資料をもとに学習独自のプロンプティング手法を活用して精度を高め、ハルシネーションを減らす方式を採用現在のモデルは英語文書向けに最適化されており、他言語は十分にサポートされない可能性が高いデモページで直接文書を試すことが可能 100万ページの変換コストは約190米ドルで、経済的に運用可能最新のNVIDIA GPUが必要（RTX 4090、L40S、A100、H100でテスト済み）オンラインデモで試す（PDF、JPG、PNG）ツールキットのオープンソースに含まれるコード ChatGPT 4oベースのプロンプティング戦略 (buildsilver.py) : 自然なテキスト解析性能を最大化する手法を含むパイプライン比較評価ツール (runeval.py) 言語フィルタリングおよびSEOスパム除去機能 (filter.py) Qwen2-VLおよびMolmo-Oのファインチューニングコード (train.py) 大量のPDFを処理するパイプライン (pipeline.py) : Sglangを使って数百万件のPDFを処理可能 Dolmaドキュメントビューア (dolmaviewer.py) : PDFから変換されたDolma形式の文書を視覚的に確認可能

(github.com/allenai)

25 ポイント投稿者 xguru 2025-03-03 | 2件のコメント | WhatsAppで共有

PDFおよびJPG/PNG文書を、自然な読書順を維持したままプレーンテキストに変換するオープンソースツール
大量の文書を高速に処理できるよう設計されており、表、数式、手書き文字などをサポート
学術論文、技術文書、その他の参考資料をもとに学習
独自のプロンプティング手法を活用して精度を高め、ハルシネーションを減らす方式を採用
現在のモデルは英語文書向けに最適化されており、他言語は十分にサポートされない可能性が高い
デモページで直接文書を試すことが可能
100万ページの変換コストは約190米ドルで、経済的に運用可能
最新のNVIDIA GPUが必要（RTX 4090、L40S、A100、H100でテスト済み）
オンラインデモで試す（PDF、JPG、PNG）

ツールキットのオープンソースに含まれるコード

ChatGPT 4oベースのプロンプティング戦略 (buildsilver.py) : 自然なテキスト解析性能を最大化する手法を含む
パイプライン比較評価ツール (runeval.py)
言語フィルタリングおよびSEOスパム除去機能 (filter.py)
Qwen2-VLおよびMolmo-Oのファインチューニングコード (train.py)
大量のPDFを処理するパイプライン (pipeline.py) : Sglangを使って数百万件のPDFを処理可能
Dolmaドキュメントビューア (dolmaviewer.py) : PDFから変換されたDolma形式の文書を視覚的に確認可能

2件のコメント

kleinstein 2025-03-06

現時点では、Windowsでは動かないようですね..

kaydash 2025-03-03

GPUなしで動作するライブラリも、まだ使い道はありそうですね

OlmOCR - PDFからテキストを抽出するオープンソースツール

ツールキットのオープンソースに含まれるコード

関連記事

2件のコメント