ウェブサイトがブラウザーフィンガープリンティングでユーザーを追跡している

(engineering.tamu.edu)

11 ポイント投稿者 GN⁺ 2025-06-20 | 1件のコメント | WhatsAppで共有

ブラウザーフィンガープリンティングは、Cookieを削除するだけでは防げないオンライン追跡手法である
テキサス大学の研究チームは、FPTraceという測定フレームワークを用いて、広告入札やHTTP記録の変化を通じて実際の追跡利用事例を実証した
フィンガープリントが変更されると、広告入札価格の変化やHTTP記録の減少が見られた
GDPR、CCPAなどのプライバシー法に基づいて追跡を拒否しても、フィンガープリンティングに基づく追跡は継続して発生する
研究チームは、現行のプライバシーツールと政策は不十分だと指摘し、規制と技術的防御の強化の必要性を強調している

Websites Are Tracking You Via Browser Fingerprinting

Cookieを削除するだけでは、オンラインプライバシーを完全に保護することはできない
Texas A&M Universityが主導した最新研究によると、ウェブサイトはブラウザーフィンガープリンティングという手法で、セッションやサイトをまたいでユーザーを追跡している
ブラウザーフィンガープリンティングは、ユーザーの画面解像度、タイムゾーン、デバイスモデルなどさまざまな情報を組み合わせて、一意のブラウザー識別子を生成する
- Cookieと異なり、ユーザーが簡単に削除したりブロックしたりできない
- ほとんどのユーザーは、このような追跡が行われていること自体を認識していない
- プライバシー重視のブラウザーでさえ、完全に遮断するのは難しい

FPTraceフレームワークでウェブ追跡の実態を詳細調査

「知らないうちに残しているデジタル署名」のようなもの
デバイスやブラウザーの組み合わせだけで、ユーザーが匿名であっても容易に追跡できる
研究チームは、**実際の広告システムでフィンガープリンティングがどのように活用されているか**を世界で初めて実証的に解明した
- FPTraceという測定フレームワークを開発し、ブラウザーフィンガープリントが広告入札とHTTP通信に与える影響を分析した
- フィンガープリントが変わる際に、広告入札値、HTTP記録、同期イベントが変化する現象を観察し、追跡の実態を明らかにした

研究結果と示唆

ユーザーがCookieを削除またはブロックしても、フィンガープリンティングによる追跡は継続的に行われる
フィンガープリンティングが使われる場合、一部のウェブサイトはバックエンドの広告入札プロセスにフィンガープリントデータを反映しており、この過程でサードパーティ事業者に識別情報が渡る可能性も確認された
欧州のGDPR、米国のCCPAなどのプライバシー法に基づいて追跡拒否を選択しても、フィンガープリンティングベースの追跡は停止しない
研究チームは、現行のプライバシーツールと政策は十分ではないと強調し、より強力な技術的・制度的防御策が必要だと主張している
- FPTraceフレームワークが、ウェブサイトおよび広告事業者による非同意追跡の監査に役立つことを期待している

1件のコメント

GN⁺ 2025-06-20

Hacker Newsのコメント

この分野で働いている者として、フィンガープリントが実際にどれほど長く持続するのかについては、あまり語られていないと感じる。実際、非常に精密なフィンガープリント情報であっても半減期は数日しかないことが多い（特にウィンドウサイズやソフトウェアのバージョンなどに基づく場合はなおさら）。現在の主要な広告ネットワークは、むしろ位置データに大きく依存している。そのため、複数デバイス間でつながっているように見えたり、配偶者や友人の関心を反映した広告がフィードに多く表示されたりする。IPベースの位置情報だけでも、非常に広い範囲に広告を配信している。FPTraceという測定フレームワークが、フィンガープリントベースのユーザー追跡を分析するツールである点は興味深く、彼らの具体的な研究手法が気になる。広告ネットワークは、フィンガープリント自体よりもデバイス設定を基準に広告集団を分けている可能性が高いと思う。たとえば、最新のソフトウェアと最新のハードウェアを使うユーザーは「購買意欲が高い集団」としてまとめられるかもしれない。タイムゾーンのような単純な要素でも広告入札の結果に大きく影響するので、この研究でどの変数をどう制御したのかは非常に重要だと思う
- 自分の情報を amiunique.org で確認したところ、本当に自分はユニークだと判定された（母が言っていた通りに！）。ただし、このサイトではどの要素を変えれば非ユニークになるのかは教えてくれず、58個のJavaScript属性のうち16個が最低類似度カテゴリだった。そのうちバージョン番号に直接依存するものは2個、画面サイズや解像度関連が6個だった。結局、すぐには変わらない情報がいくつも残っている印象だ。時間が経てば正確な値は変わるかもしれないが、「半減期は数日」という表現は、この技術の実際の効果を過小評価しているように感じる
- ウィンドウを最大化したときのサイズは、環境やモニターの交換、デスクトップ環境の更新がない限り、ほとんど変わらない。GPUハードウェアも頻繁に変わる要素ではなく、WebGLやWebGPUを使えば固有特性を容易にフィンガープリントに利用できる。インストール済みフォントもそう頻繁には変わらない。TCPスタックのフィンガープリントもかなり安定している。こうした要素がいくつかあるだけで、個別の特性が1つ変わったとしても、以前のフィンガープリントクラスタと簡単に結び付けられる。さらに深刻なのは、Cookieのようなクライアント側識別子も同時に消さない限り、完全に異なる2つのフィンガープリントの間でも明確に関連付けられることだ
- ハードウェア割り込み処理時間とその遅延も、インストール済みアプリの組み合わせやGPUドライバのバージョンなどの細かい要素によって固有値が変わり得ることを考えると、本当にアップデートが行われてはじめて分布が変わるのであって、すべての分布が同時に変わることはまれだと思う
- Siteimprove Analyticsは、自社のcookieless追跡技術が従来のCookieベース追跡より正確だと公然と主張している。Visitor Hashは個人情報を除いたIPとHTTPヘッダー（ブラウザの種類、バージョン、言語、user agentなど）をハッシュ化して作られるため、従来Cookieの欠点である「短い寿命」の問題を解消し、ユニーク訪問者統計の精度向上に有利だとしている。ただし、server-sideの属性だけを使い、クライアント側の属性は収集しない。イントラネットのように同一IP・同一デバイス環境から多数流入する場合、複数ユーザーが同じVisitor Hashを持ち、訪問がひとまとめになる欠点があるため、その種のドメインはcookieless追跡から除外することを推奨している
- ブラウザのフィンガープリントは、選ぶデータポイント次第で非常に堅牢にできる（例: インストール済みプラグイン、コンテンツ言語、フォントなど）。データポイントを状況に応じて動的に調整したり、ユーザーごとに異なる形で利用したりするアプローチが可能だ。また、フィンガープリントは全データの一部にすぎない。位置データのような別情報と組み合わせれば、制限や回避策の多くを無力化できる。たとえば、既存のフィンガープリントと80%似た新しいフィンガープリントが同じ職場IPから追加され、元のフィンガープリントが消えたなら、この2つを結び付けるのは容易だ。広告会社自体はコスト効率や合法性の防御のために「ショットガン戦略（広範囲ターゲティング）」を好むが、広告以外の目的を持つ組織はデータポイントがさらに多く、はるかに精密に追跡できる
amiunique.org では、ブラウザが画面解像度、タイムゾーン、デバイスモデルなどさまざまな情報を露出し、それらを組み合わせて「フィンガープリント」を作れることが強調されている。Cookieと違って、こうしたフィンガープリント情報はユーザーが削除したり遮断したりしにくいため、検知や防止そのものがはるかに難しい。皮肉なことに、デバイスやOS、ブラウザのセキュリティ・プライバシー強化にこだわるほど、かえって自分のフィンガープリントがより独特になる問題がある。FOSSエコシステムには長い歴史があったのに、まともなオープンソースブラウザが主流を取れなかったのは残念だ。独占は初期にあまりにも収益性が高かったし、個人的にはオフラインアクセスのためにWebスクレイパーも考えたが、実用性は低いと判断した
- 「まともなオープンソースブラウザが台頭したことはない」というのは正確ではない。Firefoxはかつて非常に人気があり、市場をほぼ完全に支配していた時期がある。その後Googleが不公正なやり方でそれを侵食したが、それは後の話だ
- Firefoxが長年にわたり、フィンガープリント追跡の効果を下げるためにほとんど実質的な対策を取ってこなかったのは驚きだ。2025年になっても、ブラウザが依然として詳しすぎるUser Agent文字列をデフォルトで送っている現実は理解しがたい（Mozilla/5.0 (X11; Linux x86_64; rv:139.0) … など）。Webサイトが自分のX11利用やx86_64 Linuxであることを知る必要はまったくない。Refererもデフォルトでまだ有効だ。JavaScriptが自分のシステムにインストールされたフォント一覧を把握できるのも問題だ。もっと細かな権限制御と合理的なデフォルト設定が必要だ。関連プラグインはあるが、導入や運用が面倒だ
- Braveのようにフィンガープリントをランダム化して追跡回避を試みるブラウザもあるが、個人的には実効性に疑問がある。別の方法としては、多くの人が使うTorのような環境に紛れ込み、「痕跡を埋もれさせる」戦略を取ることだ
- 異なる2つのプライベートブラウジングウィンドウで、どちらもユニークなユーザーだと判定された。つまり、プライベートタブ間ではフィンガープリント連携が不可能なのか気になる
- 「まともなオープンソースブラウザ」という基準で、なぜFirefoxが外れるのか気になる
「フィンガープリント追跡が実際のユーザーをどれだけ長期間同一と判定できるのか」を測るテストは、coveryourtracks.eff.org や amiunique.org よりもっとよく設計されていてほしい。両サイトとも一意性しかテストしておらず、持続性は確認していない。だから完全な乱数生成器ですらフィンガープリントと認識できてしまう。実際のフィンガープリント保護技術にはランダム出力が含まれることが多いため、Tor、Safari、LibreWolfのような対策済みブラウザでも、こうしたサイトではむしろ失敗扱いになる
- CreepJS は、自分のフィンガープリントに名前（シグネチャ）を付けて、再訪時に同一フィンガープリントかどうか確認できるサイトだ
- fingerprint.comが、この種の「時間経過に伴う結果テスト」を提供できると聞いた。fingerprinting as a Service分野では最高レベルで、MetaやGoogleがそれを上回る程度だ
「フィンガープリント追跡が実際に起きている」という点は、すでに多くの人が何となく予想していたが、具体的な証拠なしに「デバイス間追跡」が本当に行われていると証明するのは難しかった。今回の研究は、スタディのためのフレームワークと大規模実験の設計を提示し、実際にフィンガープリント追跡が広告分野で起きているかを実証的に確認しようとしたものだ。既存論文の大半は、フィンガープリント関連スクリプトが実行されたかどうかしか測っていなかったため、それだけでは追跡目的なのか（あるいはボット対策、不正防止、認証などの防御的目的なのか）は分からなかった。今回の研究は、ブラウザフィンガープリントを人為的に調整しつつ広告の変化まで追跡して、実際の追跡文脈を明らかにしたのが興味深い（論文リンク）。論文本体は閲覧できないので、さらに具体的な内容は確認できていない
Cookieはドメインごとに別々に保存されるためセキュリティ境界内にあるが、フィンガープリントはドメインに関係なく計算できる。広告サーバーなどがフィンガープリントだけでユーザーを追跡・把握する状況も十分想像でき、こうしたフィンガープリント情報だけを集めても被害者に関する情報を収集できる点が問題だ
「なぜブラウザはこれほど多くの情報をWebサイトにデフォルトで露出するのか？」という問いに対して、
- ブラウザそのものが、多様な機能（API）のサンドボックスでできている。各機能はユーザー利便性のためのものだが、それぞれは重要に見えなくても、組み合わさると1つの固有フィンガープリントになる。本当にフィンガープリントのない環境を望むなら、Web上のJavaScriptを丸ごと排除するしかないという結論になる
- 開発者は機能提供のためにこうしたAPIを求め、プライバシーへの影響はすでに「手遅れになってから」ようやく注目されるようになった
- 情報の大半は実際に有用で必要だ。いくつかは削れるが、残りは「挙動結果を比較分析する方式」だ（例: 複数のfont-familyでテキストボックスをレンダリングすると、デバイスごとのフォント差で実際のサイズが変わる。これ自体がフィンガープリントとして利用できる）
- ブラウザが一部の情報（たとえばuser agentのOSバージョンなど）を減らしたり消したりすると、予期しないサイトエラーが続出する。たとえばAppleがuser agentのバージョンを10から11に変えただけでも、多くのサイトが止まった。Refererフィールドは近年のブラウザで、パスや全体の省略などによって大きく制限されつつある
- Mozilla上層部には、プライバシー・セキュリティ・自由に対する実質的な意思が常に不足していたと思う。時には単に「マーケティング観点」でしか捉えず、実効性のない変更を行ったり、大手テック企業の利害と完全には衝突しないやり方に固執したりしていた。W3Cにおいてさえ、強く対立する人物がいないのは残念だ
アプリはWebサイトよりはるかに深刻にユーザーを追跡する。サイトがなぜ絶えずアプリのインストールを促すのかというと、ブラウザで使える多くの保護機構が、アプリ環境ではすべて無力化されるからだ。アプリはログインを要求し、その後はあらゆるデータを第三者と自由に共有できる
- 私のアプリはそういう追跡をしていない。メールアドレスすら受け取らないので、新しい通知を知らせる唯一の手段としてアプリを使っている。アプリは継続性の面で有利で、Webサイトは相対的に効果が低い
- iOSには「Ask App Not to Track」という機能がある。ただし、これは特定の種類の追跡だけを防ぐもので、すべての追跡を阻止できるわけではない
「フィンガープリント追跡が実際に広範囲で使われている」という事実について、「アカデミアの外にある文書を見ていない人」や「責任ある追跡ベンダーは、すでに何年も前からフィンガープリント追跡を明示していた」と指摘する声がある
- 本質は学界や業界の無知ではなく、この研究が「実際にフィンガープリント追跡が現在どの程度、どれだけ効果的に行われているか」を定量的に示した点に価値がある、という意見だ。ベンダーが方針としてすでに公表していたとしても、実際の効果や規模に関する洞察は別問題だ。今回の研究が、広告のような「比較的無害な（benign）」環境でも追跡成功率を検証したなら、他の主体が追跡する場合にもどれほど有効かを知る基盤になる
- 学界でもすでに何年も前からフィンガープリント追跡の利用は認識されていた。以前はFlashを使って、ユーザーがインストールしたフォント情報を直接抜き出す技法も広く使われていた（関連論文）。こうした公式な言及が現実と異なるという見方は訂正すべきだ
- FingerprintJS のように、かなり前から存在していたオープンソースのフィンガープリント追跡フレームワークもある。初期にはスパムや悪意ある訪問者の追跡によく使われていた
- オンラインプライバシーを守ることは重要だが、結局のところフィンガープリント追跡そのものを阻止しようとする対策は、現実の問題を十分に解決できず、むしろWebをより不便にしているという主張もある。たとえて言えば、規制があっても悪意ある主体は依然としてフィンガープリント追跡を強行し、一般のサイトだけが機能制約を受けて逆効果になる、という指摘だ
- 学術研究では、業界の方針や告知ではなく、具体的に測定可能で反証しにくい「実証的証拠」の確保を重視するという観点だ
EFFのfingerprintページに入るたびに、毎回ユニークなフィンガープリントだと判定される。1時間後に再訪しても変わらない。このサイトがフィンガープリントのハッシュ値を提供してくれれば、数か月後でも比較できて良いと思う。もし本当に毎回変わるなら、フィンガープリント追跡もかなり難しくなるだろうから、その点では安心でもある
これほど多くの労力と技術が広告ターゲティングに使われていることに懐疑的だ。私は基本的にすべての広告をブロックしているので、こうしたフィンガープリント追跡の努力はすべて無駄に思える

ウェブサイトがブラウザーフィンガープリンティングでユーザーを追跡している

Websites Are Tracking You Via Browser Fingerprinting

FPTraceフレームワークでウェブ追跡の実態を詳細調査

研究結果と示唆

関連記事

1件のコメント

Hacker Newsのコメント