- PDFおよびJPG/PNG文書を、自然な読書順を維持したままプレーンテキストに変換するオープンソースツール
- 大量の文書を高速に処理できるよう設計されており、表、数式、手書き文字などをサポート
- 学術論文、技術文書、その他の参考資料をもとに学習
- 独自のプロンプティング手法を活用して精度を高め、ハルシネーションを減らす方式を採用
- 現在のモデルは英語文書向けに最適化されており、他言語は十分にサポートされない可能性が高い
- デモページで直接文書を試すことが可能
- 100万ページの変換コストは約190米ドルで、経済的に運用可能
- 最新のNVIDIA GPUが必要(RTX 4090、L40S、A100、H100でテスト済み)
- オンラインデモ で試す(PDF、JPG、PNG)
ツールキットのオープンソースに含まれるコード
- ChatGPT 4oベースのプロンプティング戦略 (
buildsilver.py) : 自然なテキスト解析性能を最大化する手法を含む
- パイプライン比較評価ツール (
runeval.py)
- 言語フィルタリングおよびSEOスパム除去機能 (
filter.py)
- Qwen2-VLおよびMolmo-Oのファインチューニングコード (
train.py)
- 大量のPDFを処理するパイプライン (
pipeline.py) : Sglangを使って数百万件のPDFを処理可能
- Dolmaドキュメントビューア (
dolmaviewer.py) : PDFから変換されたDolma形式の文書を視覚的に確認可能
2件のコメント
現時点では、Windowsでは動かないようですね..
GPUなしで動作するライブラリも、まだ使い道はありそうですね