- Drew DeVault(SourceHut創設者)が、AIクローラーが robots.txt を無視して SourceHut に 深刻な障害 を引き起こしていると警告
- KDE の GitLab インフラでも、Alibaba の IP 範囲から発生した AI クローラー攻撃 によりアクセス不能状態が発生
- AIクローラーの問題点
- AIクローラーは robots.txt の要件 を無視
- git blame、git log のすべてのページとコミットをクロール
- 無作為な User-Agent と数万件の IP からリクエストを発生 → 一般ユーザーのトラフィックのように偽装
- クローラーの遮断が難しい → 優先度の高い作業が数週間から数か月遅延
- システム管理者の不満
- AIクローラーの問題は個別事例ではなく 広範な問題
- 多くのシステム管理者が同じ問題を経験中
- OpenAI、Anthropic は 正確な User-Agent を設定しているが、中国の AI 企業はそうではない
- KDE GitLab の対応
- MS Edge を装ったボットを遮断 → 一時的な解決策
- GNOME は未ログインユーザーのマージリクエストとコミット確認にレート制限を適用
- Anubis を導入 → ブラウザが問題を解くことでアクセスを許可
- Anubis の問題点
- ユーザーにも影響が発生 → 問題を解く時間が必要
- チャットルームにリンクが共有されると過負荷が発生 → 1〜2分の待ち時間が発生
- トラフィックの97%がボット
- GNOME で2時間半の間に 81,000件のリクエスト が発生 → 97%がAIクローラー
- 一部のプロジェクトは AIクローラー遮断後に トラフィックが75%減少
- その他の FOSS プロジェクトの問題
- Fedora → クローラー遮断のため ブラジル全体の IP を遮断
- Inkscape → クローラーがブラウザ情報を偽装 → 大規模な IP 遮断
- Frama Software → 46万件の IP ブロックリスト を作成
- AIクローラー対策プロジェクト
- ai.robots.txt → AIクローラー遮断のためのオープンリストを提供
- robots.txt および .htaccess ファイルを設定 → AIクローラーのリクエスト時にエラーページを返す
- トラフィック分析結果
- Diaspora の場合、トラフィックの 70%がAIクローラー
- OpenAI のユーザーエージェント: 25%
- Amazon: 15%
- Anthropic: 4.3%
- Google および Bing クローラーのトラフィック占有率は 1%未満
- AI生成バグレポートの問題
- Curl プロジェクトで AI生成バグレポート の問題が発生
- 報告されたバグの大半は 幻覚(hallucination) の問題
- CPython、pip、urllib3、Requests → AI生成セキュリティレポート の処理に時間を消費
- 信頼性が低い → それでも確認が必要 → メンテナーの負担が増加
結論
- AIクローラーとAI生成バグレポートは、オープンソースコミュニティに大きな負担を与えている
- オープンソースプロジェクトは商用製品より資源が少なく、コミュニティベースであるため、このような問題により脆弱である
1件のコメント
Hacker Newsの意見
大規模なインターネットインフラを運用している多くの人が、同様の経験をしている
FastlyはFOSSプロジェクトに無料のセキュリティサービスを提供している
自分のプロジェクトがプレビュー画像に登場していたことに驚いた
FOSSインフラだけでなく、匿名でのインターネットアクセスそのものが脅かされている
最近、Forgejoインスタンスが攻撃を受けた
DISABLE_DOWNLOAD_SOURCE_ARCHIVES設定を true に変更することを推奨する過去に検索エンジンの問題を解決するためにrobots.txtが作られたが、現在の新しいインデクサーはこれを無視している
Googleと広告によるWeb支配力は弱まるだろう
LLaMaを使って矛盾した投稿を生成し、情報の混乱を誘発する
VideoLANもAI企業のボットによってフォーラムとGitlabが攻撃を受けている
検索エンジンにインデックスされないWebが生まれる可能性がある