- PDFテーブル抽出のためのRustベースのオープンソースエンジン
- 既存のPythonツール(Camelot、Tabula、pdfplumber)は、OpenCV、Ghostscript、Javaなどの重いランタイム依存関係を必要とするため、サーバーレス環境ではメモリ制約が大きい
- TREXは単一バイナリで外部依存なしに動作し、メモリ約30MBでCloud Run/Lambda上でもOOMなしで実行可能
- Lattice(格子線ベース)/ Stream(座標推論)の2つのパース戦略を内蔵し、DL Routerによりページごとに最適な戦略を自動選択可能
- ディープラーニングベースのDL Router がページ特徴を分析して最適なパース戦略(Lattice/Stream/Blend)を自動選択。運用中に抽出失敗イベントを収集し、ONNXモデルを再学習させることで精度を継続的に改善できる
- Node.jsでは
npm i @dreamyoungs/trex(CLIラッパー)または npm i @dreamyoungs/trex-node(NAPI-RSネイティブバインディング)ですぐに利用可能
- Docker REST API、Pythonバインディングにも対応し、MIT / Apache-2.0デュアルライセンス
まだコメントはありません。