6 ポイント 投稿者 xguru 2020-03-04 | 1件のコメント | WhatsAppで共有
  • XPDFベースの、Cコードで書かれた高速変換オープンソースライブラリ

  • Windows / Mac / Linux向けの実行ファイルを提供

  • フォントを含めて、PDF内部のテキストを x,y 座標で抽出

1件のコメント

 
xguru 2020-03-04

既存の pdf.js を利用した JavaScript 版の pdf2json もありますが、こちらは XPDF を使います。

https://github.com/mozilla/pdf.js/

https://github.com/modesty/pdf2json

一般的な PDF 機能は Apache PDFBox を使えばよいです。

https://pdfbox.apache.org/

PDFBox は Java ライブラリで、PDF の生成、抽出、分割・結合、画像への変換などがすべて可能です。