1 ポイント 投稿者 GN⁺ 1 시간 전 | 1件のコメント | WhatsAppで共有
  • auto-identity-removeは、氏名と地域情報でデータブローカーサイトを検索し、オプトアウトフォームを自動送信して、毎月500件以上の人物検索サイトとデータブローカーデータベースから個人情報を削除するのを支援するツール
  • 実行フローは、ブローカーごとの検索、特定プロフィール一覧の検出、オプトアウトフォーム送信、必要に応じたCAPTCHA処理、最近完了した項目のスキップ、結果通知、手動対応が必要なサイトのブラウザ起動で構成される
  • 状態追跡state.jsonに最後の成功時点と実行履歴を保存し、デフォルトの再確認周期は90日のため、完了済みのオプトアウトを毎回再送信しない
  • CAPTCHA付きフォームはCapSolver経由で処理でき、コストはおおよそ1回の解答あたり$0.001で、設定しない場合はそのサイトは手動処理リストに回る
  • 要件はNode.js 18+、macOS・Linux・Windows、Playwrightブラウザで、setup.jsが個人情報入力、別名、CapSolverキー、使い捨てアカウント、通知、月次スケジュール登録を案内する
  • 月次タスクは毎月1日午前9時に実行されるよう登録され、プラットフォームに応じてlaunchdsystemd、crontab、schtasksを自動検出して使用する
  • Docker実行にも対応しており、公式Playwrightイメージを使ってChromiumとシステム依存関係を含み、コンテナ間で完了履歴を維持するにはstate.jsonをマウントする必要がある
  • 通知はmacOSのiMessageによる結果要約をサポートし、ヘッドレスまたはDocker環境ではnotify.webhookでntfy.sh、Slack incoming webhook、Discord webhookに{"text": "<summary>"}をPOSTできる
  • ブローカー対応は2段階に分かれており、STATUS.mdに整理された明示的ブローカー42件は個別セレクタにマッピングされ、約490件はDo Not Sellボタン、OneTrust・TrustArc・Osano、一般フォーム、DSARリンク探索を順に試すヒューリスティック方式となっている
  • ✅ Submittedはブローカーがフォームを受理したことを意味するだけで、削除を保証するものではなく、node watcher.js --verifyは記録済みの成功項目を再検索してVERIFIED CLEARSTILL LISTEDUNVERIFIABLEに分類する
  • 自動処理対象として代表的に対応しているのは、Spokeo、WhitePages、FastPeopleSearch、TruePeopleSearch、BeenVerified、Radaris、Acxiom、LexisNexis、ZoomInfo、Clearbitなどで、Google Results About YouとGoogle Outdated Contentは手動処理として開かれる
  • 米国外の利用者向けには、国番号、Province/Region、Postal code、元の電話番号の保存、国選択フィールド入力をサポートするが、Spokeo・WhitePages・FastPeopleSearchなどのUS-onlyブローカーは設定国がUSでない場合は自動的にスキップされる
  • --dry-runはサイト探索とフォーム入力のみを行い送信はせず、実験的機能の--pollute NacceptsBogus: trueと表示された一部ブローカーに偽レコードを送信するが、規約違反や法的リスクの可能性が明記されており、デフォルトでは無効になっている
  • 個人情報を含むconfig.json、オプトアウト履歴のstate.json、実行ログはgitignore対象で、リポジトリのライセンスはMIT

1件のコメント

 
GN⁺ 1 시간 전
Hacker Newsのコメント
  • スパム電話やSMSにうんざりして、500以上のデータブローカーのオプトアウト手続きを毎月自動化するスクリプトを作った。
    助けが必要なのは、ヒューリスティック方式だと見落としが多いこと。一般的なサイトでも固有のフローが多く、4つの汎用戦略では対応しきれない。
    実際に成功する汎用サイトと静かに失敗するサイトを検証し、価値の高いサイトには明示的なブローカー定義を追加し、macOS以外の環境でテストし、メール認証フローを処理してくれる人が必要。
    Repo: https://github.com/stephenlthorn/auto-identity-remove
    リポジトリには個人情報は含まれておらず、セットアップスクリプトがローカルで情報入力を受け付け、.gitignoreで除外される。
    • 今の方式が多くのサイトで成功するのか気になる。リポジトリが明らかにバイブコーディングされた、あるいは少なくともAIをかなり使って書かれたように見えるので、どこまでできていて、ちゃんと動かすには何が残っているのか追いにくい。
      メール認証は暫定的に「この送信者からのメールの確認リンクをクリックして」と案内する方式でも成り立ちそう。複数のプロバイダにまたがって実際の受信箱を安定して読むのは、実質的にメールクライアントが必要になりそうで難しいかもしれない。
      それと、見当違いかもしれないが、このコメント自体もAI生成のように見える。だとしたらサイトのガイドライン違反。

      Don't post generated comments or AI-edited comments. HN is for conversation between humans.
      https://news.ycombinator.com/newsguidelines.html#generated

  • カナダで試してみたが、Spokeoのような別サービスへの登録を勧められ、使っていないApple Mailアプリ経由でのメールアクセスを求められ、404も多く、多くのサイトで手動介入が必要だった。
    アイデアは良いが、一般的に有用になるにはかなり手を入れる必要がある。数字ではない郵便番号や米国外の住所が自動化をかなり壊しているようだ。
    • 人々が当然のようにAppleサービスを使っていると仮定しているのはかなり驚き。
  • 2011年ごろでもYellow Pagesは州内の全住所に紙の電話帳を配達していた。うちの町では翌日に臨時のリサイクルトラックを別で回して全部回収し、みんな捨てていた。
    同僚たちと見たところ、オプトアウトフォームには住所だけが必要だった。全国の既知の住所を集めて数か月かけて自動送信し、全部オプトアウトさせる案を考えたが実行には至らず、Yellow PagesのWeb開発者たちが何パーセントのオプトアウトで緊急会議を開いただろうかと想像して笑っていた。
    • 同じような時期に、兄が自宅の部屋を何部屋か電話帳配達の仕事をしている人たちに貸していた。別の国だったが、Yellow Pagesはどこにでもあったようだ。
      配達員たちはさばききれなくなり、結局は電話帳の山を積んで燃やし始めた。電話帳を恋しがる人がいなかったので、見つかるまでかなり時間がかかった。
    • Yellow Pages側はオプトアウトを受け取っていないふりをしただろう。ダイレクトメール業者やスパマーの半分がそうするように。
      Ulineが年に2、3回、私書箱に巨大な紙カタログを送ってくるのを止めようとしてかなり苦労した。フォームはあるのに、依頼をただ無視する。
      https://www.uline.com/CustomerService/ULINE_FAQ_Ans?FAQ_ID=4...
    • Australia Postでこのプロジェクトのデータプライバシーについて話していたとき、「皆さんは毎年何百万もの人の個人データを定期的に配布して、誰でも見られるように玄関先に情報を置いているんじゃないですか?」と冗談を言わずにはいられなかった。
  • 彼らのやっていることは社会を実際には良くしないのだから、健全な社会ならそういう行為を違法化できるはずだ。でも私たちはそうしていないので、できていない。
    • 十分に違法化できる。GDPRの下では、個人情報を大規模に収集して販売することを合法的に行うのはずっと難しい。
      それでも起きていないという意味ではないが、対抗するための法的根拠は与えてくれる。noyb.eu / Max Schrems などは、その前線で非常に重要で素晴らしい仕事をしている。
  • 「CapSolverでCAPTCHAを解きます(AIベース、1回あたり約$0.001)」とのことで、やはりそうだった。昔ながらのCAPTCHAに悩まされているのは自分だけではなかった。
    • CAPTCHAの種類にもよるが、Apple、Cloudflare、Googleが人間であることの証明に**リモートアテステーション(remote attestation)**へ移行しているのには理由がある。
      reCAPTCHA v3 EnterpriseとMtCaptchaはコストが実に3倍で、1000回解いて$3。だからこちらが狙いやすいCAPTCHAに見える。
    • 有料のCAPTCHA解決サービスを買って、人生を少し楽にしたくなる。
    • ブラウザ拡張もあるらしい: https://www.capsolver.com/products/browser-extension
  • macOSに縛られているのはlaunchdだけのようで、この情報はドキュメントに追加すると役立ちそう。CLIからそのまま実行できるのかは分からない。
    systemd対応は簡単そう。Windowsが何を使うのかはよく分からない。
    • Windowsサービスを作るのはもう少し難しい。Windowsではサービスに実際のAPIを使い、単にプロセス実行やスクリプトに頼る方式ではないから。
      ただしタスクスケジューラなら、月1回実行のような作業をいろいろな方法で予約できる。
    • sc.exeやtaskschedを使えばよい。
  • 自分にとっては状態追跡と手動の代替経路がいちばん興味深い。こういうツールなら、実際に送信する前にどのフィールドがどのブローカーに送られるのかを見せるドライラン/監査モードはぜひ欲しい。
    脅威モデルが曖昧で、このツールは露出を減らしてくれる一方で、壊れたセレクタが個人情報を誤った場所に漏らす可能性もある。
  • これって逆に、自分の情報を500のデータブローカーに送るための便利な自動化になってしまわないか気になる。
    • ステップ3でどんな情報を提供する必要があるのか確認してはいないが、自動でオプトアウトフォームを埋めて送信するなら、名前と住所以上の情報が必要になりそう。
      もっと良い解決策は、米国でGDPRのような法案を推進することだ。
  • 少なくともカリフォルニアでは、DROPフォームがこの秋にオンラインで提供される予定。
    • 業界で働く立場からすると、8月1日はカリフォルニアに登録された約500のデータブローカーにとってダモクレスの剣のようにぶら下がっている。
      消費者向けにはすでに開かれている。近所の27.5万人と一緒に登録できる。
  • 興味深い。しばらく使ってみた人がいるのか、実際にスパム削減に効果があるのか気になる。