- 公開されたスノーデン文書のPDFメタデータのバージョン履歴を分析した結果、米国内の情報機関地上局に関するセクションが意図的に削除されていたことが確認された
- 削除された内容には、Potomac Mission Ground Station(PMGS) と Consolidated Denver Mission Ground Station(CDMGS) の運用名称とカバー名称の構造が含まれていた
- どちらの文書でも初期バージョンには該当情報が存在していたが、最終公開版では完全に除去され、PDF内部のバージョン履歴にのみ痕跡が残っていた
- 一方で、英国の Menwith Hill やオーストラリアの Pine Gap など海外施設に関する情報はそのまま維持されており、国内施設のみが体系的に編集されたパターンが浮かび上がった
- この発見は、スノーデン文書の公開過程における編集・検閲手続きを技術的に追跡できることを示す事例として重要である
米国内の情報施設に関する削除内容
- 2つの文書のメタデータ分析の結果、国内情報施設セクションが完全に削除されていたことが確認された
- 2016年公開の Menwith satellite classification guide では PMGS(ワシントンDC) に関するセクションが削除
- 2017年公開の NRO SIGINT Guide for Pine Gap では CDMGS(デンバー地域) に関するセクションが削除
- 削除された部分には、施設の正式名称、カバー名称、所在地、訪問者情報などが含まれていた
- 2施設はいずれも国家偵察局(NRO) の Mission Ground Station と明記されており、
- PMGSのカバー名称は “Classic Wizard Reporting and Testing Center(CWRTC) ”
- CDMGSのカバー名称は “Aerospace Data Facility(ADF) ” と記録されている
Potomac Mission Ground Station (PMGS)
- 所在地: ワシントンDCの海軍研究所(Naval Research Laboratory) 内の259・260号館
- 公開名称: “Classic Wizard Reporting and Testing Center(CWRTC) ”
- 実際の機能: NRO衛星情報ネットワークの地上局
- 文書には各名称のセキュリティ区分が明記されている
- “CWRTC” = 非機密(UNCLASSIFIED)
- “PMGS” = 機密(S//TK)
- “CWRTCがPMGSのカバー名称である” = 機密(S//TK)
- “CWRTCとNRO・CIA・NSA要員の関連性” = 機密(S//TK)
- このような多層的な分類体系は、公開名称と実際の任務を分離して運用するための構造として説明されている
Consolidated Denver Mission Ground Station (CDMGS)
- 所在地: コロラド州オーロラのバックリー宇宙軍基地
- 公開名称: “Aerospace Data Facility (ADF) ”
- 実際の名称: “Consolidated Denver Mission Ground Station (CDMGS) ”
- 公にはADF-Cが偵察衛星の指揮・統制施設として知られているが、
- “ADFがCDMGSのカバー名称”である事実は文書で初めて確認された
- 文書内の表では各施設の実際の名称とカバー名称が並列表示されており、
- CDMGS–ADF–FSD(Field Station Denver)
- PMGS–MSF–CWRTC
- HMGS–RAF MHS, AMGS–JDFPG などの構造として整理されている
編集およびメタデータ分析の結果
- PDFメタデータには編集時点と使用ツールが記録されている
- Pine Gap 文書は2017年7月31日に、Nitro Pro 8 で2つのバージョンが数分間隔で生成された
- 1つ目のバージョンにはCDMGSセクションが存在したが、2つ目のバージョンで削除された
- The Intercept と ABC が同一ファイルを共有して掲載したことも確認された
- Menwith Hill 文書も同様のパターンを示しており、国内施設セクションのみが削除された形となっている
- こうしたメタデータは編集・検閲過程のフォレンジック証拠として機能する
後続研究とツール
- 今後の分析では、PDFメタデータ全体のバージョン追跡を通じて、
- 削除された要員名、編集されたスクリーンショット、多段階の修正痕跡などを技術的に検証する予定
- PDFバージョンの抽出には pdfresurrect ツールが利用可能
- 例:
pdfresurrect -w filename.pdf
- Libroot.org は各文書のバージョン1・2ファイルを直接ダウンロードできるよう提供しており、
- Menwith Hill および Pine Gap 文書の両バージョンが公開されている
1件のコメント
Hacker Newsのコメント
これらのPDFは "incremental update" 機能を使っていたようだ
つまり、文書を修正する際に元のファイルへ変更分だけを追記する方式だ
簡単に言えば、テキストエディタで
%%EOF行を探し、その後ろを切り落とせば以前のバージョンのPDFを復元できるただし、linearized PDF の最初の
%%EOFは実際のバージョンではなく、技術的な理由で存在するダミーの改訂だ情報保護の観点から見ると、文書を印刷してからスキャンし、画像PDFにする方法がますます良く見える
このコードにはプリンタのシリアル番号、さらにはインターネット接続時のIPアドレスまで含まれる可能性がある
したがって、ファームウェアを制御できないプリンタの使用は避けるべきだ
関連する解析ツールとして YellowDotDecode、dotsecrets、CCC 2007発表資料 がある
あるいは、LLMで文書を再構成し、句読点や空白をなくしたうえで、その結果を再び画像化する方法もある
フィルムカメラでモニタを撮影する アナログ撮影 は、改ざん防止と証拠保全に役立つ
ただし、どんな方法でも痕跡は残るので、許可されていない情報共有は絶対に避けるべきだ
結局、スパイが再びマイクロフィルムに戻る時代 が来たようだ
本当に不安なら、画像に ノイズフィルタ をかけてぼかすだろう
PDF文書を解析できる ツール群の改善 が必要だ
今は
qpdfの QDFモード である程度対処できるが、GUIが切実に欲しい悪性PDF解析向けだが、一般文書の理解にも役立つツールが多い
Epstein PDF事件 以降、こうしたアイデアはさらに興味深くなった
この研究は本当に洞察に富んでいる
以前、誰かが Snowden文書 を再分析して新しい情報を見つけたことも思い出す
彼がすべての資料を完全には公開できなかったのは残念だ
それまで公開されていなかった内容を扱っている
関連記事は Electrospacesブログ と
Libroot Part 2、Part 3 で読める
記者Ryan Gallagherに 編集判断 について問い合わせたが、まだ返答を受けていない
休暇が終わったので、そろそろ何か連絡があることを期待している
政府の圧力によるものなのか、それとも内容があまりにセンシティブだったのか気になる
もしかすると、元ファイルを持っているのは記者たちだけなのではないか
PDFがどうしてこんなことを可能にしているのか気になっていた
バージョン履歴を全部保存する構造なのか、メタデータにdiffを保持しているのか知りたい
各オブジェクトはIDを持ち、修正時には既存オブジェクトを上書きせず、新しい世代(generation)を追加する
たとえば
mutool clean -d in.pdf out.pdfで圧縮を解除すれば、その構造を見られるこうして元の内容を保持したまま修正版を追記する形になる
このツールは以前のバージョンを抽出し、変更の要約を提供する
以前のバージョンのオブジェクトは参照されなくなっても、ファイル内に残っていることがある
印刷してスキャンする代わりに、XPSに出力してから再度PDFへ変換 する方法も有効なのだろうか
こうした事実が今になって知られたことに驚く
ただ、この情報が広く共有されていなかっただけだ
% pdfresurrect -w epsteinfiles.pdfコマンドを試した人はいる?これはほぼ間違いなく 記者たちの編集(redaction) の結果に見える
「編集済み」の表示や理由の説明がないのは残念だ
技術的にも、スクリーンショットで公開していればメタデータ流出は防げたはずだ
メタデータのタイムスタンプを見ると、文書バージョンが公開の3週間前に作られていたことが分かる
ほとんどの文書は適切に処理されていたが、今回の2件の文書だけは メタデータ上のミス により重要な情報が露出した
次の記事では、PDFの フォレンジックとメタデータ解析 に関する技術的な詳細を掘り下げる予定だ