14 ポイント 投稿者 GN⁺ 2024-12-31 | 1件のコメント | WhatsAppで共有
  • 最近、diasporaプロジェクトのウェブインフラ(Discourse、Wiki、プロジェクトのウェブサイトなど)で発生しているロードスパイクと遅延の問題を分析した結果、トラフィックの大半がLLMクローリングボットによって発生していることが判明
  • 過去60日間で1,130万件のリクエスト(平均2.19 req/s)があり、そのうち70%以上がLLM関連のクローリングボットによるもの
    • GPTBot/1.2: 24.6%(278万リクエスト)
    • Amazonbot/0.1: 14.9%(169万リクエスト)
    • ClaudeBot/1.0: 4.3%(49万リクエスト)
    • meta-externalagent/1.1: 2.2%(22万リクエスト)
  • 異常なクローリングパターン
    • 繰り返しクロール: 同一ページを6時間間隔でクロール
    • robots.txtの無視: クロール制限ルールをまったく順守しない
    • 非効率なクロール: 意味のないデータ(例: Wikiのすべての編集履歴)を大量にクロール
    • ロードスパイク: 特定の時点で10req/sを超えるリクエストを発生させ、データベースとMediaWikiサーバーに過負荷を発生
  • 防御も不可能
    • IP変更: レート制限を回避するためにIPを継続的に変更
    • UA文字列変更: ボットのユーザーエージェント(User Agent)を任意の文字列に変更してブロックを回避
  • GooglebotやBingbotのような既存の検索エンジンクローラーは、正常かつ効率的なクローリングパターンを示している。
    • Googlebot: 0.14%(16,600リクエスト)
    • Bingbot: 0.14%(15,900リクエスト)
    広告
  • 重複クロールを最小化し、robots.txtのルールを順守

結果と影響

  • 効果的なサービス提供が不可能: LLMクローリングボットによって人間ユーザーの体験が大きく悪化
  • サーバー過負荷: データベースサーバーとMediaWikiが繰り返しロードスパイクに見舞われる
  • 事実上、インターネット全体へのDDoS: このようなクローリング方式は、世界中で不要なリソース浪費を引き起こす

結論

  • LLMクローリングボットの異常なトラフィックパターンにより、インフラには継続的な負荷がかかっており、これを防御するための試みは効果を発揮していない
  • この問題は個人的な疲弊を超えて、インターネットエコシステム全体に深刻な影響を及ぼしている

1件のコメント

 
GN⁺ 2024-12-31
Hacker Newsの意見
  • MetaのAIボットがWebサイトを過剰にクロールしてサーバーがダウンした体験が共有されている。Cloudflareを使ってこれを遮断する方法が説明されている

    • CloudflareのAIボット遮断機能が有用だと言及されている
    • AIボットによるコンテンツへのアクセスには価値がないと主張している
  • さまざまなプラットフォームで発生したボットトラフィックのデータが共有されている

    • Claude、Amazon、Data For SEO、ChatGPT などのボットが多くのトラフィックを発生させている
    • これらのボットは robots.txt を無視したり、遅延が発生してもバックオフしなかったりすると説明している
  • ボットを遮断する方法について議論している

    • IPを変更したり、非ボットのUser Agentに切り替えたりするボットの挙動を説明している
    • OpenAIのIP範囲を公開しているGitHubリンクが共有されている
    • WordPressプラグインを使ってAIボットを遮断する方法を提案している
  • CGTalkフォーラムがリソース問題で閉鎖された事例に言及している

    • 多くのフォーラムがサーバー運用負担を減らすためにSlackやDiscordへ移行している
  • AI企業はもっと賢くスクレイピングすべきだと主張している

    • AI企業の行動は恥ずべきことだと言及している
  • ポイズニング攻撃への好奇心を示している

    • 人間が書いた誤ったコンテンツでAIモデルを混乱させられる可能性を探っている
  • GCPにデプロイしたアプリがボットトラフィックのためにコスト増になった体験が共有されている

    • Redditでアプリを共有したことが原因ではないかと推測している
  • 大規模フォーラムのクロール体験が共有されている

    • ChatGPTがフォーラムの歴史についてよく知っていると言及している
    • LLMsに影響を与えられるテキストを追加するアイデアを提案している
  • robots.txt を無視し、サービスに悪影響を及ぼすボットの行動は違法と見なせる可能性があると主張している

    • 地域のサイバー法執行機関に連絡することを勧めている