borb - PDFの読み取り・書き込み・編集向けPythonオープンソースライブラリ
(github.com)- PDFドキュメントをJSONに近いデータ構造で表現し、簡単に扱える
→ ネストされたリスト、dictionary、primitive など
- PDFを最初から生成する
→ Page、PageLayout を生成
→ Paragraph、Image、Shape、Barcode、Chart、Emoji、List、Table、Form などを生成
- 既存のPDFを変更する
→ メタデータの抽出と変更
→ テキスト/画像の抽出
→ 画像の変更
→ Annotation(Note、Link など)の追加
→ テキスト/テーブル/リストの追加
→ ページレイアウトマネージャーを利用する
1件のコメント
数日前に投稿されていたサービスの中に、論文をHTMLに変換するものもありましたが、
肝は、multi-columnでのテキストを読む順序や、画像の範囲などですね。
こうしたサービスによって論文のserializationが成熟して、要約サービスもまもなく出てきそうです(笑)