1 ポイント 投稿者 GN⁺ 2026-02-05 | 1件のコメント | WhatsAppで共有
  • 米国司法省が Epstein Files Transparency Act に基づいて公開したPDF文書を対象に、ファイル構造と構文を中心とした デジタルフォレンジック分析 が行われた
  • 分析の結果、公開された EFTAデータセット 01–07 のPDFは適切に編集(redaction) されており、ソーシャルメディアで提起された「復元可能な編集」という主張は事実ではない
  • すべてのPDFには 暗号化・注釈・JavaScript・添付ファイルがなく、大半はスキャン画像ベースでOCRが適用された形式であり、一部のファイルには 隠れたメタデータ(dictionary) が存在する
  • Bates番号の付与、非圧縮オブジェクトストリーム、誤ったバージョン表記、欠落した注釈処理 などの技術的な詳細が確認されたが、ファイルの有効性には大きな影響はない
  • この事例は PDFフォレンジックの複雑さとツール信頼性の限界 を示しており、機密文書の公開前における 正確なクレンジング・編集ワークフローの重要性 を強調している

DoJ公開データの概要

  • 司法省は2025年12月19日に7つのZIPアーカイブ(計2.97GB)を公開し、その内部には 4,085個のPDF、1つのAVIファイル、各セットごとの .DAT および .OPT データファイルが含まれていた
    • PDFファイル名は EFTA00000001.pdf から EFTA00009664.pdf まで順次構成
    • 5,879個のPDFがまだ未公開 の状態であることが確認された
  • PDFは大半が スキャン画像ベースの文書 で、OCRにより一部検索可能なテキストが含まれている
    • 「ブラックボックス」形式の編集が適用されており、これはピクセルベースで正しく実施されていることが確認された
    • 「デジタル生成(born-digital)」文書は確認されなかった

ファイル有効性とバージョン分析

  • 複数の PDFフォレンジックツール を用いた有効性検査の結果、軽微なエラーが1件だけ見つかった
    • 109個のファイルで FontDescriptor の Descent 値が正数 に設定されていたが、これは些細なフォントマッチング誤りであり、全体の有効性には影響しない
  • pdfinfo ツール2種類を比較した結果、PDFバージョンの読み取り値が相違 していた
    • Tool A は1.3版が209個、1.5版が3,875個と報告
    • Tool B は1.3版が3,817個、1.5版が267個と報告
    • この差は 増分更新(incremental update)Version 項目の処理方法 の違いによるもので、Tool A の結果が正確である
  • すべてのPDFには 暗号化・タグ・注釈・ブックマーク・フォーム・JavaScript・添付ファイルがない
    • 総ページ数は9,659ページで、大半が単一ページ文書である

増分更新とBates番号

  • PDFは複数回の 増分更新 によって修正履歴を累積保存している
    • 最初のPDF(EFTA00000001.pdf)には 2回の増分更新 が含まれる
    • 最後の更新で Bates番号 が各ページに追加された
  • Bates番号の追加には /Type /XRef クロスリファレンスストリームが使われており、すべてのサンプルPDFで同じパターンが確認された
  • 最初の増分更新では PDFバージョンが1.3から1.5に変更 されたが、ヘッダーと一致しない技術的な誤りが存在する
    • また 隠れた文書情報ディクショナリ(Info dictionary) が存在するが、最終トレーラーから参照されていないため、一般的なPDFビューアでは見えない
    • 当該ディクショナリには /Creator (OmniPage CSDK 21.1) および /Producer (Processing-CLI) の情報が含まれている

メタデータと日付分析

  • pdfinfo の結果では、大半のPDFに 明示的なメタデータやXMPストリームがない
    • ただし、一部のファイルには orphaned Info dictionary が存在し、/Info 項目が複数回出現する
  • EFTA00003212.pdf ファイルだけが Title, Author, Subject, Keywords, Creator 項目を含んでいる
    • /Producer の値が “pypdf” と表示されるファイルが215個存在する
  • 作成日(CreationDate)と更新日(ModDate)はすべて同一で、2025年12月18日〜19日 の間と確認された
    • これはDoJのバッチ処理が約36時間にわたって行われたことを示唆する

画像とスキャン特性

  • すべてのPDFで JPEG(DCTDecode)画像は存在せず、代わりに FLATE圧縮ビットマップ が使われている
    • 解像度は約 96 DPI、カラーパレットは256色に制限されている
    • これは EXIF・IPTC・XMPメタデータの除去を目的 としたものと推定される
  • 一部の文書には実際のスキャン痕跡(紙の端、穴、落書きなど)がある一方、一部は デジタルレンダリング後にスキャンをシミュレートした画像 のように見える
    • 同一の傾き(skew)やノイズの欠如によって区別できる
  • Courier 等幅フォント の使用により、編集された文字数を数えて推定できてしまうリスクがある

OCR品質と編集の正確性

  • OCR結果は 精度が低く言語認識機能もなく、単純な文字認識レベルにとどまる
    • 最初のPDF(EFTA00000001.pdf)のOCRテキストは大半が不正確である
  • 「ブラックボックス」編集は 画像ピクセルレベルで直接適用 されており、テキストオブジェクトの上に重ねた覆い(rectangle)ではない
    • そのため復元可能なテキストは存在しない

結論と示唆

  • DoJのPDF生成パイプラインは JPEG除去、メタデータ最小化、画像ベースレンダリング、OCR適用 などで構成されている
    • ただし 不要なオブジェクト・空のストリーム・増分更新の残存 などにより、ファイルサイズと複雑性は増大している
  • 一部の PDFコメント(comment)と孤立オブジェクト(orphaned object) が残っており、情報漏えいの可能性がある
  • PDFフォレンジックは ツール間の結果差と形式の複雑さ により誤判定の可能性が高い
    • PDF Association はこのため PDF Forensic Liaison Working Group を運営し、業界標準化と教育を進めている

1件のコメント

 
GN⁺ 2026-02-05
Hacker Newsの意見
  • いくつかの文書は実際のスキャン画像のように見えるが、物理的ノイズがまったくない人工的なPDFだとわかった
    ページごとに同じ傾き(skew)と完璧な縁を持っていることから、元のデジタル文書を画像としてレンダリングした後、傾き・縮小・減色といった後処理を施したものに見える

    • 本当に気になるのは、どの文書がこうした**「偽スキャン」なのか、そしてそれがどんな政治的ナラティブを補強しようとする意図なのかという点だ
      誰かがこんなことをする理由は、おそらく
      AI生成画像**や改ざんされた資料を本物らしく見せるためだろう
    • GNOME Desktopを使っている人なら、Bashスクリプトを ~/.local/share/nautilus/ に入れて、右クリックメニューから直接偽スキャンPDFを作れる
      元の出典は覚えていないが、Stack Exchangeで見た気がする。magick コマンドで回転、ノイズ、グレースケール変換などを適用する
    • こんなふうに作るのは妙だ。文書を印刷して再スキャンするほうがずっと簡単だ
    • 特に言及されている文書は、2019年のDoJによるA. Acostaへの聞き取り資料のようだ。
      もし本物なら、FBIがなぜスキャン画像のように偽装したのか疑問だ。EpsteinとAcostaの取引のうち公開したくない部分でもあるのだろうか
      関連PDFリンク
    • 自分もときどき似たことをする。署名を求められたら白紙に署名してスキャンしておき、あとでその上に文書を合成して提出する
  • DOJが原本ではなく修正版の複製を公開したのは、法的に問題だと思う
    使用されたソフトウェア OmniPage CSDK 21.1 はメタデータをすべて取り除き、暗号化されたファイルも削除する

  • 誰かが**Epstein(JE)**の文体を分析して、4chanのような場所の投稿と比較したことがあるのか気になる
    Ghislaineも同様に十分なデータがありそうだ。MaxwellHill関連の主張は信じていないが、何か手がかりはあるかもしれない

    • 以前、HNユーザーたちの文体を分析して類似アカウントを見つけるstylometryプロジェクトがあった
      関連投稿
      プライバシーの問題でサイトは閉鎖されたが、精度は高かった。自分も自分のコメントをランダムにスタイル変更してくれるAIブラウザ補助ツールを作ってみたくなる
    • それでも自分は懐疑的だ。文体や語彙だけでは重なる人が多すぎて、特定は難しいと思う
      ただ、Epsteinのメールはかなり独特なので例外かもしれない
    • 実際、n-gram分析だけでも著者を識別できるほど、stylometryは精巧だ
      HNデモリンク
      こうした手法はAI生成文もよく見分ける。AI検出用トランスフォーマーを学習させるアプローチより、ずっと良いと思う
    • Epsteinの文章はほとんど失読症レベルで非文が多い
      高位の人間は自分で文章を書くことがほとんどないため文構成能力を失ったのかもしれないし、彼らだけの内部言語なのかもしれない
  • このページのクッキーポップアップで、拒否ボタンが**"Continue without consent"**になっているのが笑えた

    • 本当にユーザーに罪悪感を抱かせようとする表現みたいだ
    • Epstein関連サイトがEpsteinのように振る舞っているのは皮肉だ
  • PDF注釈や圧縮されたオブジェクトストリーム内部の孤立オブジェクトを通じて情報が漏れている可能性もある
    誰かがすべての文書を個別にアーカイブしてくれているといいのだが。すでに削除されたものもあるようだ

    • Redditでも関連投稿が削除されたり、シャドウバンされたりしている
      ただし Lemmyコミュニティ では今も議論が続いている
    • 一部の文書には被害者の名前が含まれているため、追加の墨消し処理が施されたものかもしれない
    • 当初は Epstein Files Transparency Actページ に全データセットの .zip リンクがあったが、
      一時すべて消え、その後いまは大半が復旧している
  • 現在、allenai/olmocr-2-7b モデルでDOJ提供のOCR結果と比較している
    画像が約50万枚あるのでかなり時間がかかる。それでもolmocr-2-7bの認識率はかなり高い

    • 画像サイズを縮小して性能を上げる方法を試したことがあるか気になる。
      どのサイズ以下にするとテキスト認識が難しくなるのかも知りたい
  • 一部の最近のファイルにランダムな「=」文字が入っている理由が気になった
    OCRエラーにも見えず、検索を難しくする意図のように思えた

    • 昨日、HNのトップに関連投稿が上がっていた: リンク
    • 実際にはこれはメールのquoted-printableエンコーディング処理の不具合のためだ
      gnusの開発者 Lars Ingebrigtsen がブログで説明していた
  • 一部のPDFにはBase64エンコードされた添付ファイルが本文にそのまま入っている
    OCR品質があまりに低く、復元にはかなりの労力が必要だ
    サンプルPDF,
    関連Redditスレッド

    • 数バイトでも壊れるとバイナリの復元が不可能になるのか気になる
  • 個人的にもっと興味深いのはEpsteinの銀行口座
    誰が彼に金を渡し、誰が彼から受け取ったのかが核心だ

    • DOJはこうした情報をすでに把握しているか、その気になればすぐ確認できるはずだ
    • だが資金追跡の根本原因分析は一般には公開されない
      その代わり、世論が特定集団間の憎悪へ流れるよう必要な分だけ公開される
  • Cloudflareによってアクセスがブロックされた