- PDFテキスト内容の修正ガイド: Adobe Acrobatのような商用ツールなしで
- Macユーザー向けの主要ガイド: 多くのLinuxディストリビューションでも使えるツールに言及
- PDFでのテキストデータの圧縮保存:
qpdf というコマンドラインツールを使った展開
- 展開後のテキストデータ確認: テキストエディタでエンコーディングおよび特定のフォントに結び付いた状態として確認
- PDF内のテキストエンコーディングの複雑さ: ファイル自体に含まれるカスタムエンコーディングを含む、さまざまな可能なエンコーディング
- エンコーディング情報の抽出:
pdffonts というコマンドラインツールを使用
- 埋め込みエンコーディングに関連するフォントの特定と、そのフォントの埋め込みエンコーディングテーブルを見つける方法の例を提供
- エンコーディングテーブル: カスタムエンコーディングポイントをUnicodeポイントにマッピング
- Pythonを使ったテーブル変換: 辞書へテーブルを変換し、エンコードおよびデコード関数を作成
- これらの関数による元のテキストの置換: カスタムエンコーディングされた置換テキストで元のテキストを置き換え可能
1件のコメント
Hacker Newsの意見
mutoolのようなツールを使えば、PDFを圧縮データのないバージョンに変換でき、理解や修正がしやすくなります。qpdfやRUPSのようなツールは、PDFの構造を把握し修正するために使用できます。