- Triplegangersは7人の従業員で運営される小規模企業で、「人間のデジタルダブル」データベースを販売している
- 3D画像ファイルや写真を3Dアーティスト、ビデオゲーム制作者などに提供
- 問題発生: OpenAIのボットが600以上のIPを使ってWebサイトを過剰にクロールし、サーバーがダウン
- 65,000件以上の商品ページと数十万枚の写真の収集を試行
- このような「DDoS攻撃に類似した」リクエストの殺到により、AWSコストの増加が見込まれる
- OpenAIの GPTBot は、robots.txt ファイルが適切に設定されていなければデータを自由にクロールする
- サイト側で別途ブロックしない限り、ボットの活動はデフォルトで許可される
- robots.txt: 検索エンジンがどのデータをクロールすべきでないかを定義するファイル
- TriplegangersはWebサイトのrobots.txtファイルを正しく設定しておらず、そのためOpenAIのボットがデータをスクレイピングできた
- 追加の問題:
- OpenAIがクロール遮断リクエストを認識するまで最大24時間かかる
- 他のAI企業も同様の方法でデータをクロールしている
Triplegangersの対応
- 対応措置:
- 適切に設定された robots.txt ファイルを作成
- Cloudflare アカウント設定でGPTBotおよびその他のAIクローラーを遮断
- 結果:
- サイトの安定化に成功
- しかし、OpenAIがどのデータを持ち去ったのかは分からず、データ削除を求める方法もない
- OpenAIの未完成な opt-out ツール により、企業にとってクロール防止がさらに難しくなっている
クロール問題が特に深刻な理由
- AIクローラーはWebサイトのデータを無断で持ち去っており、これは特にTriplegangersのような企業に大きな問題を引き起こしている
- データの機微性:
- Triplegangersは実在の人物をスキャンして作成されたデータベースを保有
- GDPRなどの個人情報保護法により、データの無断利用は禁止されている
- データの魅力:
- データがタグ付けされており、AI訓練に有用
- 例: 人種、年齢、身体的特徴などが詳細に表示されている
他の小規模ビジネスへの教訓
- AIボットの検知:
- AIボットによるクロールの有無を確認するにはログ監視が必須
- ほとんどのWebサイトは、自分たちがクロールされた事実すら把握していない
- 増加するクロール問題:
- 2024年には一般的に無効なトラフィック(Invalid Traffic)が86%増加
- AIクローラーおよびスクレイパーが主な原因
結論
- AIボットによるクロール問題は小規模ビジネスに深刻な影響を与える
- AI企業はデータを持ち去る前に許可を求めるべき
- 小規模企業は robots.txt とファイアウォールを積極的に活用し、継続的な監視が必要
4件のコメント
あるサイトにアクセスしたIP 600件が本物だとしたら、狂ったようにクロールしているんだなとは思いますが、
robots.txtを使っていなかったという点では少し「え?」となりますね。データが重要な企業のようですし、サイトも稼働しているようなのに、まずは一番基本の
robots.txt設定からやってほしい……AI企業がWebトラフィックの大半を生み出している
Cloudflare は本当に必要悪のようなものだと思います。非常に高性能な単一障害点ですね。
Hacker Newsの意見
AI企業がフォーラムで大量のトラフィックを発生させている
Web開発者として、AI企業の非効率なスクレイパーに不満を抱いている
記事で
robots.txtが誤記されている点を指摘しているWebの歴史は繰り返すという意見がある
個人Webクローラーに興味があったが、今は不公正なGoogle経済に失望している
最近Amazonで本を出版した人たちが、AIによって生成された詐欺的な複製品と競争している
サイトが
robots.txtを適切に使っていないと、AIが好き放題にスクレイピングできると警告しているrobots.txtを確認することを勧めているサイトはHTTPエラー429を使ってボットの速度を制御できる