AmazonのAIクローラーで不安定になった私のGitサーバー
(xeiaso.net)-
AmazonのAIクローラーによって私のGitサーバーが不安定に
-
サポートブログ: ブログを楽しんでいるなら、PatreonでXeを支援できます
-
Patreon購読: EthicalAds広告
-
更新(2025-01-18 23:50 UTC): Giteaサーバーにリクエストを許可する前に、プルーフ・オブ・ワーク検証を行うプロキシを書きました。名前はAnubisで、近日中にブログ記事を書く予定です。現在は https://git.xeserv.us/ で確認できます。やや荒削りですが、十分に動作しています
-
更新(2025-01-18 19:00 UTC): ギブアップしました。GiteaサーバーをVPNの背後に移しました。ボットからサーバーを守るため、プルーフ・オブ・ワーク式のリバースプロキシを作業中です。近日中に再稼働させる予定です
-
更新(2025-01-17 17:50 UTC): イングレス設定に次のスニペットを追加しました:
nginx.ingress.kubernetes.io/configuration-snippet: | if ($http_user_agent ~* "(Amazon)" ){ return 418; }ボットは依然として別のIPから攻撃しています。リクエストの約10%にはamazonbotのユーザーエージェントがありません。次に何をすべきか分かりません。未来が嫌です
-
助けてほしいこと: AmazonBotを運用している人に、
git.xeserv.usをブロックされたドメイン一覧に追加してほしいと頼んでいます。Amazonに知り合いがいるなら、このメッセージを伝えてください。Gitサーバーをクロールしたいなら、少なくともハードウェア増強に見合う費用を支払えるよう連絡してほしいです。Giteaサーバーを一般公開から閉じたくはありませんが、必要ならそうします。AIクローラーボットをブロックするのは無意味です。ボットは嘘をつき、ユーザーエージェントを変え、住宅用IPアドレスをプロキシとして使います。リクエストが止まってほしいです -
robots.txtファイルはすでにすべてのボットをブロックするよう設定しています:User-agent: * Disallow: /これ以上何をすべきか分かりません
1件のコメント
Hacker Newsの意見
弁護士に「明確な停止要求書」を作成してもらい、Amazonに送付することで問題解決を試みることができる
人が訪れないリンクをWebサイトに追加し、robots.txtでそれを禁止してAIクローラーをブロックする方法の提案
AIやSEOボットはrobots.txtをほとんど順守せず、ブロックするのも難しい
Amazonではない別の主体がAIクローラーを装っている可能性がある
個人サーバーでAIクローラーによりCPU使用量が急増する問題が発生
AIクローラーをブロックする代わりに、有害なコンテンツを提供して問題を解決できるのではないかという意見
Amazonを装ったDDoS攻撃である可能性の指摘
PinboardサイトもAIクローラーによってトラフィックが急増し、サイトがダウン
AmazonがAWSクレジットを提供して、超過トラフィック費用を補償してくれることを望む意見
Nginxでブロックする設定を行う前は、BytespiderとAmazonbotが全トラフィックの80%を占めていた