auto-identity-remove - macOS、Linux、Windows向け自動データブローカー オプトアウト実行ツール
(github.com/stephenlthorn)- auto-identity-removeは、氏名と地域情報でデータブローカーサイトを検索し、オプトアウトフォームを自動送信して、毎月500件以上の人物検索サイトとデータブローカーデータベースから個人情報を削除するのを支援するツール
- 実行フローは、ブローカーごとの検索、特定プロフィール一覧の検出、オプトアウトフォーム送信、必要に応じたCAPTCHA処理、最近完了した項目のスキップ、結果通知、手動対応が必要なサイトのブラウザ起動で構成される
- 状態追跡は
state.jsonに最後の成功時点と実行履歴を保存し、デフォルトの再確認周期は90日のため、完了済みのオプトアウトを毎回再送信しない - CAPTCHA付きフォームはCapSolver経由で処理でき、コストはおおよそ1回の解答あたり$0.001で、設定しない場合はそのサイトは手動処理リストに回る
- 要件はNode.js 18+、macOS・Linux・Windows、Playwrightブラウザで、
setup.jsが個人情報入力、別名、CapSolverキー、使い捨てアカウント、通知、月次スケジュール登録を案内する - 月次タスクは毎月1日午前9時に実行されるよう登録され、プラットフォームに応じてlaunchd、systemd、crontab、schtasksを自動検出して使用する
- Docker実行にも対応しており、公式Playwrightイメージを使ってChromiumとシステム依存関係を含み、コンテナ間で完了履歴を維持するには
state.jsonをマウントする必要がある - 通知はmacOSのiMessageによる結果要約をサポートし、ヘッドレスまたはDocker環境では
notify.webhookでntfy.sh、Slack incoming webhook、Discord webhookに{"text": "<summary>"}をPOSTできる - ブローカー対応は2段階に分かれており、STATUS.mdに整理された明示的ブローカー42件は個別セレクタにマッピングされ、約490件はDo Not Sellボタン、OneTrust・TrustArc・Osano、一般フォーム、DSARリンク探索を順に試すヒューリスティック方式となっている
✅ Submittedはブローカーがフォームを受理したことを意味するだけで、削除を保証するものではなく、node watcher.js --verifyは記録済みの成功項目を再検索してVERIFIED CLEAR、STILL LISTED、UNVERIFIABLEに分類する- 自動処理対象として代表的に対応しているのは、Spokeo、WhitePages、FastPeopleSearch、TruePeopleSearch、BeenVerified、Radaris、Acxiom、LexisNexis、ZoomInfo、Clearbitなどで、Google Results About YouとGoogle Outdated Contentは手動処理として開かれる
- 米国外の利用者向けには、国番号、Province/Region、Postal code、元の電話番号の保存、国選択フィールド入力をサポートするが、Spokeo・WhitePages・FastPeopleSearchなどのUS-onlyブローカーは設定国が
USでない場合は自動的にスキップされる --dry-runはサイト探索とフォーム入力のみを行い送信はせず、実験的機能の--pollute NはacceptsBogus: trueと表示された一部ブローカーに偽レコードを送信するが、規約違反や法的リスクの可能性が明記されており、デフォルトでは無効になっている- 個人情報を含む
config.json、オプトアウト履歴のstate.json、実行ログはgitignore対象で、リポジトリのライセンスはMIT
1件のコメント
Hacker Newsのコメント
助けが必要なのは、ヒューリスティック方式だと見落としが多いこと。一般的なサイトでも固有のフローが多く、4つの汎用戦略では対応しきれない。
実際に成功する汎用サイトと静かに失敗するサイトを検証し、価値の高いサイトには明示的なブローカー定義を追加し、macOS以外の環境でテストし、メール認証フローを処理してくれる人が必要。
Repo: https://github.com/stephenlthorn/auto-identity-remove
リポジトリには個人情報は含まれておらず、セットアップスクリプトがローカルで情報入力を受け付け、
.gitignoreで除外される。メール認証は暫定的に「この送信者からのメールの確認リンクをクリックして」と案内する方式でも成り立ちそう。複数のプロバイダにまたがって実際の受信箱を安定して読むのは、実質的にメールクライアントが必要になりそうで難しいかもしれない。
それと、見当違いかもしれないが、このコメント自体もAI生成のように見える。だとしたらサイトのガイドライン違反。
アイデアは良いが、一般的に有用になるにはかなり手を入れる必要がある。数字ではない郵便番号や米国外の住所が自動化をかなり壊しているようだ。
同僚たちと見たところ、オプトアウトフォームには住所だけが必要だった。全国の既知の住所を集めて数か月かけて自動送信し、全部オプトアウトさせる案を考えたが実行には至らず、Yellow PagesのWeb開発者たちが何パーセントのオプトアウトで緊急会議を開いただろうかと想像して笑っていた。
配達員たちはさばききれなくなり、結局は電話帳の山を積んで燃やし始めた。電話帳を恋しがる人がいなかったので、見つかるまでかなり時間がかかった。
Ulineが年に2、3回、私書箱に巨大な紙カタログを送ってくるのを止めようとしてかなり苦労した。フォームはあるのに、依頼をただ無視する。
https://www.uline.com/CustomerService/ULINE_FAQ_Ans?FAQ_ID=4...
それでも起きていないという意味ではないが、対抗するための法的根拠は与えてくれる。noyb.eu / Max Schrems などは、その前線で非常に重要で素晴らしい仕事をしている。
reCAPTCHA v3 EnterpriseとMtCaptchaはコストが実に3倍で、1000回解いて$3。だからこちらが狙いやすいCAPTCHAに見える。
systemd対応は簡単そう。Windowsが何を使うのかはよく分からない。
ただしタスクスケジューラなら、月1回実行のような作業をいろいろな方法で予約できる。
sc.exeやtaskschedを使えばよい。脅威モデルが曖昧で、このツールは露出を減らしてくれる一方で、壊れたセレクタが個人情報を誤った場所に漏らす可能性もある。
もっと良い解決策は、米国でGDPRのような法案を推進することだ。
消費者向けにはすでに開かれている。近所の27.5万人と一緒に登録できる。