2 ポイント 投稿者 GN⁺ 2023-09-05 | 1件のコメント | WhatsAppで共有
  • PDFテキスト内容の修正ガイド: Adobe Acrobatのような商用ツールなしで
  • Macユーザー向けの主要ガイド: 多くのLinuxディストリビューションでも使えるツールに言及
  • PDFでのテキストデータの圧縮保存: qpdf というコマンドラインツールを使った展開
  • 展開後のテキストデータ確認: テキストエディタでエンコーディングおよび特定のフォントに結び付いた状態として確認
  • PDF内のテキストエンコーディングの複雑さ: ファイル自体に含まれるカスタムエンコーディングを含む、さまざまな可能なエンコーディング
  • エンコーディング情報の抽出: pdffonts というコマンドラインツールを使用
  • 埋め込みエンコーディングに関連するフォントの特定と、そのフォントの埋め込みエンコーディングテーブルを見つける方法の例を提供
  • エンコーディングテーブル: カスタムエンコーディングポイントをUnicodeポイントにマッピング
  • Pythonを使ったテーブル変換: 辞書へテーブルを変換し、エンコードおよびデコード関数を作成
  • これらの関数による元のテキストの置換: カスタムエンコーディングされた置換テキストで元のテキストを置き換え可能

1件のコメント

 
GN⁺ 2023-09-05
Hacker Newsの意見
  • PDF仕様は複雑で、Photoshopのレイヤーブレンドモードや、以前の内容を修正するための追補コンテンツなど、さまざまな機能をサポートしています。
  • PDFには、「所有者」と「ユーザー」で異なるパスワードを持つパスワードベースの暗号化や、印刷やテキストのコピーを防ぐオプションが含まれます。
  • その複雑さにもかかわらず、PDFは不可侵なバイナリ形式ではなく、公式仕様でよく説明されたさまざまな種類のオブジェクトグラフです。
  • mutool のようなツールを使えば、PDFを圧縮データのないバージョンに変換でき、理解や修正がしやすくなります。
  • PDFは、3Dオブジェクト、JavaScript、埋め込みFlashオブジェクトのムービー、不可視の注釈、XHTMLとCSSのサブセットを使うウィジェットなど、さまざまな機能をサポートしています。
  • ただし、PDFは主にページ記述形式であり、ページの表示そのものではなく文書構造を表します。そのため、PDFの元になった文書を編集することが推奨されます。
  • PDFは主に内容を完全に表示または印刷することを目的としているため、実際の画像より少ないバイト数で済む画像形式に近いものです。
  • qpdfRUPS のようなツールは、PDFの構造を把握し修正するために使用できます。
  • FirefoxはPDFに署名する簡単な方法を提供しています。
  • PDF仕様は膨大で複雑であり、何年も学んだ後でも、ようやく表面をかすめた程度に感じることがあります。