13 ポイント 投稿者 xguru 2021-03-12 | 1件のコメント | WhatsAppで共有
  • PDFまたは画像からテーブルデータを抽出してCSVにしてくれるオープンソース

  • Python + OpenCV + Tesseract のコード

  • PDF内の画像は Poppler + ImageMagick でそれぞれの画像ファイルとしてすべて抽出し、一括で処理可能(バッチスクリプト)

1件のコメント

 
xguru 2021-03-12

表に数字しかない場合は、以下のコードなら領域まで選定して抽出できるので、より便利そうです。

image2csv - 数字の表画像をCSVに変換するオープンソース

https://github.com/artperrin/image2csv

  • Python + OpenCV + Tesseract のコード

  • 自動グリッド(表)認識

  • 手動認識時はWindowsでマウスによる領域選択