AI企業がウェブトラフィックの大半を生み出している
(pod.geraspora.de)- 最近、diasporaプロジェクトのウェブインフラ(Discourse、Wiki、プロジェクトのウェブサイトなど)で発生しているロードスパイクと遅延の問題を分析した結果、トラフィックの大半がLLMクローリングボットによって発生していることが判明
- 過去60日間で1,130万件のリクエスト(平均2.19 req/s)があり、そのうち70%以上がLLM関連のクローリングボットによるもの
- GPTBot/1.2: 24.6%(278万リクエスト)
- Amazonbot/0.1: 14.9%(169万リクエスト)
- ClaudeBot/1.0: 4.3%(49万リクエスト)
- meta-externalagent/1.1: 2.2%(22万リクエスト)
- 異常なクローリングパターン
- 繰り返しクロール: 同一ページを6時間間隔でクロール
- robots.txtの無視: クロール制限ルールをまったく順守しない
- 非効率なクロール: 意味のないデータ(例: Wikiのすべての編集履歴)を大量にクロール
- ロードスパイク: 特定の時点で10req/sを超えるリクエストを発生させ、データベースとMediaWikiサーバーに過負荷を発生
- 防御も不可能
- IP変更: レート制限を回避するためにIPを継続的に変更
- UA文字列変更: ボットのユーザーエージェント(User Agent)を任意の文字列に変更してブロックを回避
- GooglebotやBingbotのような既存の検索エンジンクローラーは、正常かつ効率的なクローリングパターンを示している。
- Googlebot: 0.14%(16,600リクエスト)
- Bingbot: 0.14%(15,900リクエスト)
- 重複クロールを最小化し、robots.txtのルールを順守
結果と影響
- 効果的なサービス提供が不可能: LLMクローリングボットによって人間ユーザーの体験が大きく悪化
- サーバー過負荷: データベースサーバーとMediaWikiが繰り返しロードスパイクに見舞われる
- 事実上、インターネット全体へのDDoS: このようなクローリング方式は、世界中で不要なリソース浪費を引き起こす
結論
- LLMクローリングボットの異常なトラフィックパターンにより、インフラには継続的な負荷がかかっており、これを防御するための試みは効果を発揮していない
- この問題は個人的な疲弊を超えて、インターネットエコシステム全体に深刻な影響を及ぼしている
1件のコメント
Hacker Newsの意見
MetaのAIボットがWebサイトを過剰にクロールしてサーバーがダウンした体験が共有されている。Cloudflareを使ってこれを遮断する方法が説明されている
さまざまなプラットフォームで発生したボットトラフィックのデータが共有されている
robots.txtを無視したり、遅延が発生してもバックオフしなかったりすると説明しているボットを遮断する方法について議論している
CGTalkフォーラムがリソース問題で閉鎖された事例に言及している
AI企業はもっと賢くスクレイピングすべきだと主張している
ポイズニング攻撃への好奇心を示している
GCPにデプロイしたアプリがボットトラフィックのためにコスト増になった体験が共有されている
大規模フォーラムのクロール体験が共有されている
robots.txtを無視し、サービスに悪影響を及ぼすボットの行動は違法と見なせる可能性があると主張している