Image-Table-OCR - 表の画像をCSVに変換
(github.com)-
PDFまたは画像からテーブルデータを抽出してCSVにしてくれるオープンソース
-
Python + OpenCV + Tesseract のコード
-
PDF内の画像は Poppler + ImageMagick でそれぞれの画像ファイルとしてすべて抽出し、一括で処理可能(バッチスクリプト)
PDFまたは画像からテーブルデータを抽出してCSVにしてくれるオープンソース
Python + OpenCV + Tesseract のコード
PDF内の画像は Poppler + ImageMagick でそれぞれの画像ファイルとしてすべて抽出し、一括で処理可能(バッチスクリプト)
1件のコメント
表に数字しかない場合は、以下のコードなら領域まで選定して抽出できるので、より便利そうです。
image2csv - 数字の表画像をCSVに変換するオープンソース
https://github.com/artperrin/image2csv
Python + OpenCV + Tesseract のコード
自動グリッド(表)認識
手動認識時はWindowsでマウスによる領域選択