TREX - Rust製のPDFテーブル抽出エンジン（ディープラーニングで精度を改善）

calmlake79 · 2026-02-28T23:52:42+09:00

PDFテーブル抽出のためのRustベースのオープンソースエンジン既存のPythonツール（Camelot、Tabula、pdfplumber）は、OpenCV、Ghostscript、Javaなどの重いランタイム依存関係を必要とするため、サーバーレス環境ではメモリ制約が大きい TREXは単一バイナリで外部依存なしに動作し、メモリ約30MBでCloud Run/Lambda上でもOOMなしで実行可能 Lattice（格子線ベース）/ Stream（座標推論）の2つのパース戦略を内蔵し、DL Routerによりページごとに最適な戦略を自動選択可能ディープラーニングベースのDL Router がページ特徴を分析して最適なパース戦略（Lattice/Stream/Blend）を自動選択。運用中に抽出失敗イベントを収集し、ONNXモデルを再学習させることで精度を継続的に改善できる Node.jsでは npm i @dreamyoungs/trex（CLIラッパー）または npm i @dreamyoungs/trex-node（NAPI-RSネイティブバインディング）ですぐに利用可能 Docker REST API、Pythonバインディングにも対応し、MIT / Apache-2.0デュアルライセンス

(github.com/dreamyoungs)

10 ポイント投稿者 calmlake79 2026-02-28 | まだコメントはありません。 | WhatsAppで共有

PDFテーブル抽出のためのRustベースのオープンソースエンジン
既存のPythonツール（Camelot、Tabula、pdfplumber）は、OpenCV、Ghostscript、Javaなどの重いランタイム依存関係を必要とするため、サーバーレス環境ではメモリ制約が大きい
TREXは単一バイナリで外部依存なしに動作し、メモリ約30MBでCloud Run/Lambda上でもOOMなしで実行可能
Lattice（格子線ベース）/ Stream（座標推論）の2つのパース戦略を内蔵し、DL Routerによりページごとに最適な戦略を自動選択可能
ディープラーニングベースのDL Router がページ特徴を分析して最適なパース戦略（Lattice/Stream/Blend）を自動選択。運用中に抽出失敗イベントを収集し、ONNXモデルを再学習させることで精度を継続的に改善できる
Node.jsでは npm i @dreamyoungs/trex（CLIラッパー）または npm i @dreamyoungs/trex-node（NAPI-RSネイティブバインディング）ですぐに利用可能
Docker REST API、Pythonバインディングにも対応し、MIT / Apache-2.0デュアルライセンス

TREX - Rust製のPDFテーブル抽出エンジン（ディープラーニングで精度を改善）

関連記事

まだコメントはありません。