AI企業がウェブトラフィックの大半を生み出している

(pod.geraspora.de)

14 ポイント投稿者 GN⁺ 2024-12-31 | 1件のコメント | WhatsAppで共有

最近、diasporaプロジェクトのウェブインフラ（Discourse、Wiki、プロジェクトのウェブサイトなど）で発生しているロードスパイクと遅延の問題を分析した結果、トラフィックの大半がLLMクローリングボットによって発生していることが判明
過去60日間で1,130万件のリクエスト（平均2.19 req/s）があり、そのうち70%以上がLLM関連のクローリングボットによるもの
- GPTBot/1.2: 24.6%（278万リクエスト）
- Amazonbot/0.1: 14.9%（169万リクエスト）
- ClaudeBot/1.0: 4.3%（49万リクエスト）
- meta-externalagent/1.1: 2.2%（22万リクエスト）
異常なクローリングパターン
- 繰り返しクロール: 同一ページを6時間間隔でクロール
- robots.txtの無視: クロール制限ルールをまったく順守しない
- 非効率なクロール: 意味のないデータ（例: Wikiのすべての編集履歴）を大量にクロール
- ロードスパイク: 特定の時点で10req/sを超えるリクエストを発生させ、データベースとMediaWikiサーバーに過負荷を発生
防御も不可能
- IP変更: レート制限を回避するためにIPを継続的に変更
- UA文字列変更: ボットのユーザーエージェント（User Agent）を任意の文字列に変更してブロックを回避
GooglebotやBingbotのような既存の検索エンジンクローラーは、正常かつ効率的なクローリングパターンを示している。
- Googlebot: 0.14%（16,600リクエスト）
- Bingbot: 0.14%（15,900リクエスト）
広告
重複クロールを最小化し、robots.txtのルールを順守

結果と影響

効果的なサービス提供が不可能: LLMクローリングボットによって人間ユーザーの体験が大きく悪化
サーバー過負荷: データベースサーバーとMediaWikiが繰り返しロードスパイクに見舞われる
事実上、インターネット全体へのDDoS: このようなクローリング方式は、世界中で不要なリソース浪費を引き起こす

結論

LLMクローリングボットの異常なトラフィックパターンにより、インフラには継続的な負荷がかかっており、これを防御するための試みは効果を発揮していない
この問題は個人的な疲弊を超えて、インターネットエコシステム全体に深刻な影響を及ぼしている

1件のコメント

GN⁺ 2024-12-31

Hacker Newsの意見

MetaのAIボットがWebサイトを過剰にクロールしてサーバーがダウンした体験が共有されている。Cloudflareを使ってこれを遮断する方法が説明されている
- CloudflareのAIボット遮断機能が有用だと言及されている
- AIボットによるコンテンツへのアクセスには価値がないと主張している
さまざまなプラットフォームで発生したボットトラフィックのデータが共有されている
- Claude、Amazon、Data For SEO、ChatGPT などのボットが多くのトラフィックを発生させている
- これらのボットは robots.txt を無視したり、遅延が発生してもバックオフしなかったりすると説明している
ボットを遮断する方法について議論している
- IPを変更したり、非ボットのUser Agentに切り替えたりするボットの挙動を説明している
- OpenAIのIP範囲を公開しているGitHubリンクが共有されている
- WordPressプラグインを使ってAIボットを遮断する方法を提案している
CGTalkフォーラムがリソース問題で閉鎖された事例に言及している
- 多くのフォーラムがサーバー運用負担を減らすためにSlackやDiscordへ移行している
AI企業はもっと賢くスクレイピングすべきだと主張している
- AI企業の行動は恥ずべきことだと言及している
ポイズニング攻撃への好奇心を示している
- 人間が書いた誤ったコンテンツでAIモデルを混乱させられる可能性を探っている
GCPにデプロイしたアプリがボットトラフィックのためにコスト増になった体験が共有されている
- Redditでアプリを共有したことが原因ではないかと推測している
大規模フォーラムのクロール体験が共有されている
- ChatGPTがフォーラムの歴史についてよく知っていると言及している
- LLMsに影響を与えられるテキストを追加するアイデアを提案している
robots.txt を無視し、サービスに悪影響を及ぼすボットの行動は違法と見なせる可能性があると主張している
- 地域のサイバー法執行機関に連絡することを勧めている

AI企業がウェブトラフィックの大半を生み出している

結果と影響

結論

関連記事

1件のコメント

Hacker Newsの意見