25 ポイント 投稿者 xguru 2025-03-03 | 2件のコメント | WhatsAppで共有
  • PDFおよびJPG/PNG文書を、自然な読書順を維持したままプレーンテキストに変換するオープンソースツール
  • 大量の文書を高速に処理できるよう設計されており、表、数式、手書き文字などをサポート
  • 学術論文、技術文書、その他の参考資料をもとに学習
  • 独自のプロンプティング手法を活用して精度を高め、ハルシネーションを減らす方式を採用
  • 現在のモデルは英語文書向けに最適化されており、他言語は十分にサポートされない可能性が高い
  • デモページで直接文書を試すことが可能
  • 100万ページの変換コストは約190米ドルで、経済的に運用可能
  • 最新のNVIDIA GPUが必要(RTX 4090、L40S、A100、H100でテスト済み)
  • オンラインデモ で試す(PDF、JPG、PNG)

ツールキットのオープンソースに含まれるコード

  • ChatGPT 4oベースのプロンプティング戦略 (buildsilver.py) : 自然なテキスト解析性能を最大化する手法を含む
  • パイプライン比較評価ツール (runeval.py)
  • 言語フィルタリングおよびSEOスパム除去機能 (filter.py)
  • Qwen2-VLおよびMolmo-Oのファインチューニングコード (train.py)
  • 大量のPDFを処理するパイプライン (pipeline.py) : Sglangを使って数百万件のPDFを処理可能
  • Dolmaドキュメントビューア (dolmaviewer.py) : PDFから変換されたDolma形式の文書を視覚的に確認可能

2件のコメント

 
kleinstein 2025-03-06

現時点では、Windowsでは動かないようですね..

 
kaydash 2025-03-03

GPUなしで動作するライブラリも、まだ使い道はありそうですね