6 ポイント 投稿者 GN⁺ 2025-01-14 | 4件のコメント | WhatsAppで共有
  • Triplegangersは7人の従業員で運営される小規模企業で、「人間のデジタルダブル」データベースを販売している
    • 3D画像ファイルや写真を3Dアーティスト、ビデオゲーム制作者などに提供
  • 問題発生: OpenAIのボットが600以上のIPを使ってWebサイトを過剰にクロールし、サーバーがダウン
    • 65,000件以上の商品ページと数十万枚の写真の収集を試行
    • このような「DDoS攻撃に類似した」リクエストの殺到により、AWSコストの増加が見込まれる
  • OpenAIの GPTBot は、robots.txt ファイルが適切に設定されていなければデータを自由にクロールする
    • サイト側で別途ブロックしない限り、ボットの活動はデフォルトで許可される
    • robots.txt: 検索エンジンがどのデータをクロールすべきでないかを定義するファイル
    • TriplegangersはWebサイトのrobots.txtファイルを正しく設定しておらず、そのためOpenAIのボットがデータをスクレイピングできた
  • 追加の問題:
    • OpenAIがクロール遮断リクエストを認識するまで最大24時間かかる
    • 他のAI企業も同様の方法でデータをクロールしている

Triplegangersの対応

  • 対応措置:
    • 適切に設定された robots.txt ファイルを作成
    • Cloudflare アカウント設定でGPTBotおよびその他のAIクローラーを遮断
  • 結果:
    • サイトの安定化に成功
    • しかし、OpenAIがどのデータを持ち去ったのかは分からず、データ削除を求める方法もない
    • OpenAIの未完成な opt-out ツール により、企業にとってクロール防止がさらに難しくなっている

クロール問題が特に深刻な理由

  • AIクローラーはWebサイトのデータを無断で持ち去っており、これは特にTriplegangersのような企業に大きな問題を引き起こしている
  • データの機微性:
    • Triplegangersは実在の人物をスキャンして作成されたデータベースを保有
    • GDPRなどの個人情報保護法により、データの無断利用は禁止されている
  • データの魅力:
    • データがタグ付けされており、AI訓練に有用
    • 例: 人種、年齢、身体的特徴などが詳細に表示されている

他の小規模ビジネスへの教訓

  • AIボットの検知:
    • AIボットによるクロールの有無を確認するにはログ監視が必須
    • ほとんどのWebサイトは、自分たちがクロールされた事実すら把握していない
  • 増加するクロール問題:
    • 2024年には一般的に無効なトラフィック(Invalid Traffic)が86%増加
    • AIクローラーおよびスクレイパーが主な原因

結論

  • AIボットによるクロール問題は小規模ビジネスに深刻な影響を与える
  • AI企業はデータを持ち去る前に許可を求めるべき
  • 小規模企業は robots.txt とファイアウォールを積極的に活用し、継続的な監視が必要

4件のコメント

 
crawler 2025-01-14

あるサイトにアクセスしたIP 600件が本物だとしたら、狂ったようにクロールしているんだなとは思いますが、robots.txt を使っていなかったという点では少し「え?」となりますね。
データが重要な企業のようですし、サイトも稼働しているようなのに、まずは一番基本の robots.txt 設定からやってほしい……

 
unsure4000 2025-01-14

Cloudflare は本当に必要悪のようなものだと思います。非常に高性能な単一障害点ですね。

 
GN⁺ 2025-01-14
Hacker Newsの意見
  • AI企業がフォーラムで大量のトラフィックを発生させている

    • Read the Docsでは、AIボットが10TBを超えるトラフィックを発生させた事例がある
    • OpenAIが600個のIPを使ってデータをスクレイピングしたという主張がある
    • CloudflareのリバースプロキシIPしか記録されておらず、実際のクライアントIPは分からない
    • ログにタイムスタンプがなく、リクエスト速度への言及もないため、DDoS攻撃という主張は不公平だという意見がある
  • Web開発者として、AI企業の非効率なスクレイパーに不満を抱いている

    • サイトに過度な負荷をかけないという基本ルールに従うべきだと勧めている
    • AI企業のスクレイパーは非効率で不快だと感じている
  • 記事で robots.txt が誤記されている点を指摘している

    • タイムスタンプのないログファイルを証拠として使うのは疑わしいと見ている
    • OpenAIが完全に無実というわけではないが、記事の質は低いと評価している
  • Webの歴史は繰り返すという意見がある

    • 過去にはAPIを通じて情報を取得できたが、現在はほとんどが遮断されている
    • AIがこうした自動化されたやり取りを再び可能にしてくれるのではないかと期待している
  • 個人Webクローラーに興味があったが、今は不公正なGoogle経済に失望している

    • LLMsは多くの有用性を提供できるが、創造性を盗むという恐れが門戸を閉ざしてしまうのではないかと懸念している
  • 最近Amazonで本を出版した人たちが、AIによって生成された詐欺的な複製品と競争している

    • BBCでこれに関する体験を取材した事例がある
  • サイトが robots.txt を適切に使っていないと、AIが好き放題にスクレイピングできると警告している

    • robots.txt を確認することを勧めている
  • サイトはHTTPエラー429を使ってボットの速度を制御できる

    • ボットがサブネットから来ている場合は、個別IPではなくサブネットに適用すべきだと提案している