- Cloudflare が AIデータスクレイパー をデフォルトでブロックする新しい設定を導入
- ウェブサイト所有者が 許可を与えない限り、AIボットによるクロールは自動的に遮断される
- AIモデルの学習に必要な 高品質データ の収集に関して、インターネット上のコンテンツ保護の役割を強化
- コンテンツ制作者とメディア は、無断でのデータ利用に対する懸念を引き続き表明
- AI企業とコンテンツ所有者の間の 法的紛争 はますます頻発する傾向
Cloudflare、AIデータスクレイパーのデフォルト遮断機能を導入
- Cloudflareは、オンライントラフィック管理とセキュリティサービスを提供する技術企業
- 最近 AI企業がウェブサイトのデータを無断収集する動き が増えていることを受け、Cloudflareは顧客が自動的に AIデータスクレイパー のアクセスを遮断できる 許可ベースの新設定 を導入
新しいデフォルトポリシーとその変化
- 新たに導入されたこの機能により、ウェブサイトは デフォルトでAIボットの自動クロール(スクレイピング) を遮断できる
- データクロールが必要な場合、ウェブサイト所有者が 個別にアクセス権限を手動で付与 しなければならない
- 従来は、Cloudflareがハッカーや悪意ある行為者と見なしていないボットであれば、自由にウェブサイト情報を収集できた
Cloudflareの方針変更の理由
- CloudflareのCEOであるMatthew Princeは、今回の措置について「インターネット上のオリジナルコンテンツを保護し、ウェブパブリッシャーの権益を強化するためだ」と強調
- AI企業が無断でインターネット上のデータを活用すると、コンテンツ制作者が新しいコンテンツを生み出すインセンティブが低下 する問題が生じる
- Cloudflareのネットワークは、世界の インターネットトラフィックの約20% を処理
- 最近ウェブ上では AIクローラーの活動が急増 しており、それに対応するための方針
AIデータを巡る業界対立の深刻化
- OpenAI、Anthropic、Googleなど、AIモデル開発のための大規模データ収集競争 が激化
- 高品質なウェブデータ は、AIモデルの精度や生成物の品質において重要な役割を担っている
- その結果、ウェブサイト運営者、報道機関、著作権者 は、無断データ収集と無補償に対して抗議
法的紛争拡大の事例
- 2025年6月にRedditが Anthropic を相手取り、2023年にはThe New York Timesが OpenAIおよびMicrosoft を相手取り、AI学習データの無断利用と著作権侵害を理由にそれぞれ提訴
- OpenAIとMicrosoftは、こうした著作権侵害の主張を否定
結論
- Cloudflareの新たな AIデータ収集デフォルト遮断ポリシー は、AI業界とコンテンツ所有者の間における データアクセスと活用の倫理的・法的基準 に重大な影響を与える
- 今回の方針変更は、AIエコシステムにおいて コンテンツ権利保護 と事前同意の標準を確立する重要な契機となっている。
2件のコメント
Cloudflare、AIボット向けのクロールごとの課金(pay-per-crawl)を導入
Hacker Newsの意見
User-agent: CCBot disallow: /という部分を見て、CCBot(Common Crawl) は AI 専用なのかという疑問を呈する。CCBot は以前から多くの robots.txt でブロックされていた。Common Crawl がコンテンツの利用方法まで統制できるのか、CC がフェアユース(fair use)に依存しているなら、ライセンス料請求や二次利用許諾に関する権利を実際に持っているのかが気になる。Webサイトの利用規約が、サイト運営者に他人の(ユーザーの)コンテンツを LLM 用途で再ライセンスし、収益を分配できるようにしている場合が多いのかも疑問botが含まれていて、robots.txt、humans.txt、favicon.ico 以外のファイルを要求したら 444 ステータス(即時接続終了)で応答している。検索エンジンの大半は CIDR ブロックをブラックホールとして扱っている。たぶんこういうやり方をしているのは自分だけだと思う420 Enhance Your Calmのような対応が Web にもっと必要だとも述べる 参考リンク