10 ポイント 投稿者 calmlake79 2026-02-28 | まだコメントはありません。 | WhatsAppで共有
  • PDFテーブル抽出のためのRustベースのオープンソースエンジン
  • 既存のPythonツール(Camelot、Tabula、pdfplumber)は、OpenCV、Ghostscript、Javaなどの重いランタイム依存関係を必要とするため、サーバーレス環境ではメモリ制約が大きい
  • TREXは単一バイナリで外部依存なしに動作し、メモリ約30MBでCloud Run/Lambda上でもOOMなしで実行可能
  • Lattice(格子線ベース)/ Stream(座標推論)の2つのパース戦略を内蔵し、DL Routerによりページごとに最適な戦略を自動選択可能
  • ディープラーニングベースのDL Router がページ特徴を分析して最適なパース戦略(Lattice/Stream/Blend)を自動選択。運用中に抽出失敗イベントを収集し、ONNXモデルを再学習させることで精度を継続的に改善できる
  • Node.jsでは npm i @dreamyoungs/trex(CLIラッパー)または npm i @dreamyoungs/trex-node(NAPI-RSネイティブバインディング)ですぐに利用可能
  • Docker REST API、Pythonバインディングにも対応し、MIT / Apache-2.0デュアルライセンス

まだコメントはありません。

まだコメントはありません。