FOSSインフラがAI企業から攻撃を受けている

(thelibre.news)

1 ポイント投稿者 GN⁺ 2025-03-21 | 1件のコメント | WhatsAppで共有

Drew DeVault（SourceHut創設者）が、AIクローラーが robots.txt を無視して SourceHut に 深刻な障害 を引き起こしていると警告
KDE の GitLab インフラでも、Alibaba の IP 範囲から発生した AI クローラー攻撃 によりアクセス不能状態が発生
AIクローラーの問題点
- AIクローラーは robots.txt の要件 を無視
  - git blame、git log のすべてのページとコミットをクロール
  - 無作為な User-Agent と数万件の IP からリクエストを発生 → 一般ユーザーのトラフィックのように偽装
- クローラーの遮断が難しい → 優先度の高い作業が数週間から数か月遅延
システム管理者の不満
- AIクローラーの問題は個別事例ではなく 広範な問題
  - 多くのシステム管理者が同じ問題を経験中
  - OpenAI、Anthropic は 正確な User-Agent を設定しているが、中国の AI 企業はそうではない
KDE GitLab の対応
- MS Edge を装ったボットを遮断 → 一時的な解決策
- GNOME は未ログインユーザーのマージリクエストとコミット確認にレート制限を適用
- Anubis を導入 → ブラウザが問題を解くことでアクセスを許可
Anubis の問題点
- ユーザーにも影響が発生 → 問題を解く時間が必要
  - チャットルームにリンクが共有されると過負荷が発生 → 1〜2分の待ち時間が発生
トラフィックの97%がボット
- GNOME で2時間半の間に 81,000件のリクエスト が発生 → 97%がAIクローラー
- 一部のプロジェクトは AIクローラー遮断後に トラフィックが75%減少
その他の FOSS プロジェクトの問題
- Fedora → クローラー遮断のため ブラジル全体の IP を遮断
- Inkscape → クローラーがブラウザ情報を偽装 → 大規模な IP 遮断
- Frama Software → 46万件の IP ブロックリスト を作成
AIクローラー対策プロジェクト
- ai.robots.txt → AIクローラー遮断のためのオープンリストを提供
  - robots.txt および .htaccess ファイルを設定 → AIクローラーのリクエスト時にエラーページを返す
トラフィック分析結果
- Diaspora の場合、トラフィックの 70%がAIクローラー
  - OpenAI のユーザーエージェント: 25%
  - Amazon: 15%
  - Anthropic: 4.3%
- Google および Bing クローラーのトラフィック占有率は 1%未満
AI生成バグレポートの問題
- Curl プロジェクトで AI生成バグレポート の問題が発生
  - 報告されたバグの大半は 幻覚（hallucination） の問題
- CPython、pip、urllib3、Requests → AI生成セキュリティレポート の処理に時間を消費
  - 信頼性が低い → それでも確認が必要 → メンテナーの負担が増加

結論

AIクローラーとAI生成バグレポートは、オープンソースコミュニティに大きな負担を与えている
オープンソースプロジェクトは商用製品より資源が少なく、コミュニティベースであるため、このような問題により脆弱である

1件のコメント

GN⁺ 2025-03-21

Hacker Newsの意見

大規模なインターネットインフラを運用している多くの人が、同様の経験をしている
- AIクローラーの乱用について体験談を共有し、こうした問題を一か所に集めて整理した記事がある
- 一部のスタートアップは問題を解決し、費用を返金したが、Facebookはメールに返信しない
FastlyはFOSSプロジェクトに無料のセキュリティサービスを提供している
- 最近はAIスクレイピングに関するリクエストが増えている
自分のプロジェクトがプレビュー画像に登場していたことに驚いた
- プロジェクトをxeiaso.netにデプロイし、実環境での動作を確認している
FOSSインフラだけでなく、匿名でのインターネットアクセスそのものが脅かされている
- 新しいボットはCAPTCHAを解き、実際のユーザーのように振る舞える
- サイトがクレジットカードやWorldcoinのような認証を要求する可能性がある
最近、Forgejoインスタンスが攻撃を受けた
- ディスクが生成されたzipファイルで埋まり、Alibaba CloudのIPレンジをブロックすると攻撃が減った
- DISABLE_DOWNLOAD_SOURCE_ARCHIVES 設定を true に変更することを推奨する
過去に検索エンジンの問題を解決するためにrobots.txtが作られたが、現在の新しいインデクサーはこれを無視している
- 法的制裁が必要だと主張している
Googleと広告によるWeb支配力は弱まるだろう
- CAPTCHAのせいで検索エンジンがサイトをインデックスできなくなり、それが検索エンジンの価値を下げるだろう
LLaMaを使って矛盾した投稿を生成し、情報の混乱を誘発する
VideoLANもAI企業のボットによってフォーラムとGitlabが攻撃を受けている
- ほとんどのボットがrobots.txtを無視する
検索エンジンにインデックスされないWebが生まれる可能性がある
- LLMスクレイピングへの対策として、プルーフ・オブ・ワークを要求する方法が提案されている

FOSSインフラがAI企業から攻撃を受けている

結論

関連記事

1件のコメント

Hacker Newsの意見