1 ポイント 投稿者 GN⁺ 2025-03-21 | 1件のコメント | WhatsAppで共有
  • Drew DeVault(SourceHut創設者)が、AIクローラーが robots.txt を無視して SourceHut に 深刻な障害 を引き起こしていると警告
  • KDE の GitLab インフラでも、Alibaba の IP 範囲から発生した AI クローラー攻撃 によりアクセス不能状態が発生
  • AIクローラーの問題点
    • AIクローラーは robots.txt の要件 を無視
      • git blamegit log のすべてのページとコミットをクロール
      • 無作為な User-Agent と数万件の IP からリクエストを発生 → 一般ユーザーのトラフィックのように偽装
    • クローラーの遮断が難しい → 優先度の高い作業が数週間から数か月遅延
  • システム管理者の不満
    • AIクローラーの問題は個別事例ではなく 広範な問題
      • 多くのシステム管理者が同じ問題を経験中
      • OpenAI、Anthropic は 正確な User-Agent を設定しているが、中国の AI 企業はそうではない
  • KDE GitLab の対応
    • MS Edge を装ったボットを遮断 → 一時的な解決策
    • GNOME は未ログインユーザーのマージリクエストとコミット確認にレート制限を適用
    • Anubis を導入 → ブラウザが問題を解くことでアクセスを許可
  • Anubis の問題点
    • ユーザーにも影響が発生 → 問題を解く時間が必要
      • チャットルームにリンクが共有されると過負荷が発生 → 1〜2分の待ち時間が発生
  • トラフィックの97%がボット
    • GNOME で2時間半の間に 81,000件のリクエスト が発生 → 97%がAIクローラー
    • 一部のプロジェクトは AIクローラー遮断後に トラフィックが75%減少
  • その他の FOSS プロジェクトの問題
    • Fedora → クローラー遮断のため ブラジル全体の IP を遮断
    • Inkscape → クローラーがブラウザ情報を偽装 → 大規模な IP 遮断
    • Frama Software → 46万件の IP ブロックリスト を作成
  • AIクローラー対策プロジェクト
    • ai.robots.txt → AIクローラー遮断のためのオープンリストを提供
      • robots.txt および .htaccess ファイルを設定 → AIクローラーのリクエスト時にエラーページを返す
  • トラフィック分析結果
    • Diaspora の場合、トラフィックの 70%がAIクローラー
      • OpenAI のユーザーエージェント: 25%
      • Amazon: 15%
      • Anthropic: 4.3%
    • Google および Bing クローラーのトラフィック占有率は 1%未満
  • AI生成バグレポートの問題
    • Curl プロジェクトで AI生成バグレポート の問題が発生
      • 報告されたバグの大半は 幻覚(hallucination) の問題
    • CPython、pip、urllib3、Requests → AI生成セキュリティレポート の処理に時間を消費
      • 信頼性が低い → それでも確認が必要 → メンテナーの負担が増加

結論

  • AIクローラーとAI生成バグレポートは、オープンソースコミュニティに大きな負担を与えている
  • オープンソースプロジェクトは商用製品より資源が少なく、コミュニティベースであるため、このような問題により脆弱である

1件のコメント

 
GN⁺ 2025-03-21
Hacker Newsの意見
  • 大規模なインターネットインフラを運用している多くの人が、同様の経験をしている

    • AIクローラーの乱用について体験談を共有し、こうした問題を一か所に集めて整理した記事がある
    • 一部のスタートアップは問題を解決し、費用を返金したが、Facebookはメールに返信しない
  • FastlyはFOSSプロジェクトに無料のセキュリティサービスを提供している

    • 最近はAIスクレイピングに関するリクエストが増えている
  • 自分のプロジェクトがプレビュー画像に登場していたことに驚いた

    • プロジェクトをxeiaso.netにデプロイし、実環境での動作を確認している
  • FOSSインフラだけでなく、匿名でのインターネットアクセスそのものが脅かされている

    • 新しいボットはCAPTCHAを解き、実際のユーザーのように振る舞える
    • サイトがクレジットカードやWorldcoinのような認証を要求する可能性がある
  • 最近、Forgejoインスタンスが攻撃を受けた

    • ディスクが生成されたzipファイルで埋まり、Alibaba CloudのIPレンジをブロックすると攻撃が減った
    • DISABLE_DOWNLOAD_SOURCE_ARCHIVES 設定を true に変更することを推奨する
  • 過去に検索エンジンの問題を解決するためにrobots.txtが作られたが、現在の新しいインデクサーはこれを無視している

    • 法的制裁が必要だと主張している
  • Googleと広告によるWeb支配力は弱まるだろう

    • CAPTCHAのせいで検索エンジンがサイトをインデックスできなくなり、それが検索エンジンの価値を下げるだろう
  • LLaMaを使って矛盾した投稿を生成し、情報の混乱を誘発する

  • VideoLANもAI企業のボットによってフォーラムとGitlabが攻撃を受けている

    • ほとんどのボットがrobots.txtを無視する
  • 検索エンジンにインデックスされないWebが生まれる可能性がある

    • LLMスクレイピングへの対策として、プルーフ・オブ・ワークを要求する方法が提案されている