3 ポイント 投稿者 GN⁺ 2025-07-03 | 2件のコメント | WhatsAppで共有
  • CloudflareAIデータスクレイパー をデフォルトでブロックする新しい設定を導入
  • ウェブサイト所有者が 許可を与えない限り、AIボットによるクロールは自動的に遮断される
  • AIモデルの学習に必要な 高品質データ の収集に関して、インターネット上のコンテンツ保護の役割を強化
  • コンテンツ制作者とメディア は、無断でのデータ利用に対する懸念を引き続き表明
  • AI企業とコンテンツ所有者の間の 法的紛争 はますます頻発する傾向

Cloudflare、AIデータスクレイパーのデフォルト遮断機能を導入

  • Cloudflareは、オンライントラフィック管理とセキュリティサービスを提供する技術企業
  • 最近 AI企業がウェブサイトのデータを無断収集する動き が増えていることを受け、Cloudflareは顧客が自動的に AIデータスクレイパー のアクセスを遮断できる 許可ベースの新設定 を導入

新しいデフォルトポリシーとその変化

  • 新たに導入されたこの機能により、ウェブサイトは デフォルトでAIボットの自動クロール(スクレイピング) を遮断できる
  • データクロールが必要な場合、ウェブサイト所有者が 個別にアクセス権限を手動で付与 しなければならない
  • 従来は、Cloudflareがハッカーや悪意ある行為者と見なしていないボットであれば、自由にウェブサイト情報を収集できた

Cloudflareの方針変更の理由

  • CloudflareのCEOであるMatthew Princeは、今回の措置について「インターネット上のオリジナルコンテンツを保護し、ウェブパブリッシャーの権益を強化するためだ」と強調
  • AI企業が無断でインターネット上のデータを活用すると、コンテンツ制作者が新しいコンテンツを生み出すインセンティブが低下 する問題が生じる
  • Cloudflareのネットワークは、世界の インターネットトラフィックの約20% を処理
  • 最近ウェブ上では AIクローラーの活動が急増 しており、それに対応するための方針

AIデータを巡る業界対立の深刻化

  • OpenAI、Anthropic、Googleなど、AIモデル開発のための大規模データ収集競争 が激化
  • 高品質なウェブデータ は、AIモデルの精度や生成物の品質において重要な役割を担っている
  • その結果、ウェブサイト運営者、報道機関、著作権者 は、無断データ収集と無補償に対して抗議

法的紛争拡大の事例

  • 2025年6月にRedditが Anthropic を相手取り、2023年にはThe New York Timesが OpenAIおよびMicrosoft を相手取り、AI学習データの無断利用と著作権侵害を理由にそれぞれ提訴
  • OpenAIとMicrosoftは、こうした著作権侵害の主張を否定

結論

  • Cloudflareの新たな AIデータ収集デフォルト遮断ポリシー は、AI業界とコンテンツ所有者の間における データアクセスと活用の倫理的・法的基準 に重大な影響を与える
  • 今回の方針変更は、AIエコシステムにおいて コンテンツ権利保護 と事前同意の標準を確立する重要な契機となっている。

2件のコメント

 
GN⁺ 2025-07-03
Hacker Newsの意見
  • あまり認識されていない点として、私たちがオンラインで行うほぼすべての行為は、これまで OpenAI や Anthropic のような企業に無料の学習データを提供する役割しか果たしておらず、その過程で実際に価値を生み出した人間たちは疎外されている。方向性の強調自体は 100% 正しいと思うが、この解決策が革新的だとは言い難く、AI の寄生的な現象に対抗するには、はるかに多くの革新が必要だという希望を表明
    • Cloudflare や類似の企業が、むしろインターネットの自由さを壊しているという主張。実際、認証を口実にサイトが遅くなったり遮断されたりすることがあまりに多く、1998年並みの遅い読み込み体験が発生している。広告会社がユーザーを追跡して収益化することを許すブラウザだけがまともに使える時代になっており、Cloudflare は問題解決ではなく中間に割り込んで金を取り、インターネット全体の体験品質を下げているという批判
    • 私がオンラインで文章を書く理由は、自分の考えを共有したいからであり、それが AI の学習データとして使われようと、人間に読まれようと、どちらでも満足している
    • 公開インターネット上のデータを自由に AI 学習に使うことは 100% 問題ないと思う。ただし、あまりに高速なクロールで小規模サイト運営が困難になるほど負担をかけるのは絶対に容認できず、こうした現象はまさに共有地の悲劇だと考える
    • Cloudflare が本当にすべての AI データスクレイピングを完全に防げるのかには懐疑的だ。こうした措置は実際にはクロールをより難しく高価にし、毎日すべてのページをかき集めて配信者側にコストを発生させる行為は防げるだろうが、結局データはどこかのデータセットには入ることになるだろうという見通し
  • この機能を有効にしてみたが、robots.txt が自動で変わることしか確認できなかった。追加の動作があるのかははっきりしない。robots.txt ファイルには、さまざまな AI ボットやクローラーをブロックする設定が追加された
    • User-agent: CCBot disallow: / という部分を見て、CCBot(Common Crawl) は AI 専用なのかという疑問を呈する。CCBot は以前から多くの robots.txt でブロックされていた。Common Crawl がコンテンツの利用方法まで統制できるのか、CC がフェアユース(fair use)に依存しているなら、ライセンス料請求や二次利用許諾に関する権利を実際に持っているのかが気になる。Webサイトの利用規約が、サイト運営者に他人の(ユーザーの)コンテンツを LLM 用途で再ライセンスし、収益を分配できるようにしている場合が多いのかも疑問
    • Cloudflare はオリジナルコンテンツ保護を理由にデフォルト設定を変えると言うが、実際の robots.txt の案内文では例外的に「AI RAG(Retrieval Augmented Generation)」用途自体は許可しており、言語モデルの学習よりもむしろ RAG のほうが作家の収益をはるかにリアルタイムで損なうので不思議だ
    • Google も結局は Web インデクシングと AI 学習の両方のためにデータを収集しており、最終的には選択を強いることができるのではないかという考え。Webサイト運営者が AI 学習への協力を拒めば Google 検索での露出まで諦めなければならない状況になれば、非常に微妙なジレンマが発生する
    • 個人的な趣味サイトでは、user-agent に bot が含まれていて、robots.txt、humans.txt、favicon.ico 以外のファイルを要求したら 444 ステータス(即時接続終了)で応答している。検索エンジンの大半は CIDR ブロックをブラックホールとして扱っている。たぶんこういうやり方をしているのは自分だけだと思う
    • 新聞社の中には、LLM クローラーだけでなく ChatGPT 検索機能まで同時にブロックした例があるが、Cloudflare の設定はそれよりずっと合理的なデフォルト値だ
  • 今回の見出しはやや誤解を招くかもしれない。現時点では、Cloudflare を使うサイトが「オプトイン」方式で AI ボット全体のブロックを素早く有効にできるようになっただけで、デフォルトではなく自動適用でもない。Cloudflare がその気になれば、こうした一括措置を任意に取れるという点が、彼らの権限の強さを示している
    • 本当にデフォルトではないのかという質問が出る。Cloudflare の公式ブログではデフォルト設定の変更に言及している
    • 今や AI ボットと Webサイトの関係は敵対的になっており、Cloudflare はその状況にただ対応しているだけだ。DDoS 防御も似たような文脈ではないかという問い
    • Cloudflare はまともな防御手段というより、インターネットを遅くしているだけのように見える。実際、提供しているチャレンジを半日以内に突破できなかったことがない。こうした措置は結局、AI SEO のための仲介市場に参入する第一歩だと思う。Cloudflare の本質はサイトのためではなく、スクレイパーとパブリッシャーの間で手数料を取ろうとする試みだと解釈する。Cloudflare は嫌いだ
  • Cloudflare 経由で配信される自分のデータ使用量は、2年前の 20gb から 100gb に急増した。実際の訪問者は半分以下に減ったのにトラフィックだけが増えたことを考えると、Cloudflare の立場ではリソースコスト削減のためにこうした措置を取っているのだろうと予想する
    • 大規模トラフィックでは帯域コストが高いという点には同意
  • HN では、ボットトラフィックのせいで Webサイトが遅くなるという不満をよく見かけるが、サイト運営者としてはあまり理解できない。Cloudflare キャッシュを標準で使えば、トラフィックの大半はキャッシュで処理され、サーバー負荷はほとんどないはずだし、CPU や帯域のコストも今はかなり安いのではないか。なぜみんなこれほど敏感なのか気になる
    • 私も大規模サイトを運営しているが、数十万ページを 10言語で提供しており、総ページ数は数百万規模で、RPS は 1000近い。AI クローラーが一度に 100〜200 RPS を複数 IP に分散して送ってくると、高価なエンドポイントを集中的に叩き、既存のロボット遮断措置でも耐えられず、DDoS に近い効果が発生する
    • 私も AI トラフィックでダウンした経験がある。キャッシュを多段で使っていても、公開 API のうち認証なしで公開されている一部のエンドポイントはキャッシュできず、そこを繰り返し叩かれると結局サイトは落ちる。数百万ページを短時間でミスキャッシュのまま同時に再生成すると、リクエストが積み上がってエラーが発生し、エラーはキャッシュ未完成に戻る悪循環になる。AI トラフィックがこうしたエンドポイントを叩き続けると問題は継続する
    • そもそも Cloudflare を使う前提自体が問題だ。単純なサイト運営にもこれが必須要素になった時代なのかと問い返す
    • 人々が主に指摘している AI トラフィック問題は、「date range ですべての投稿を取得する」といった API を延々と叩くクローラーに多く集中していた
    • 私もこうした強い反応にはやや意外さを感じるが、最適化されていないサイトでは AI クローラーから逃れたいと思うのは理解できる。関連ツールの中では Anubis checker が最も速く広がったように見える github リンク。AI トラフィックが分散クローラーであることを考えると、協調的に制限するオープンソースソフトウェアがもっと活発になる必要性を感じる。HTTP ステータスコード 420 Enhance Your Calm のような対応が Web にもっと必要だとも述べる 参考リンク
  • AI 企業が許可なく複数の Webサイトのデータを使ってしまえば、デジタルコンテンツを生産する意欲は失われ、結局 AI の成長構造そのものが他のデジタル活動を阻害し、最後には Web まで破壊するだろうという懸念を表明している(面白いことに AI にとって Web 自体が「獲物」だ)
    • 世界全体で広告ブロッカーの利用率が 30% であり、デジタルコンテンツ阻害の論理はもう少し複雑だという意見
    • AI が究極的にやりたいこと(人間との多様な相互作用や経済活動)が実現しなければ、AI も結局はデータ資源が枯渇する
    • 今は資本主義が人間を主たる搾取対象にしているように、AI も構造的に似た道をたどるという見方
  • Cloudflare は事前構成されたルールによって robots.txt を守って誠実に行動する AI ボットやクローラーは捕捉できるが、すでに Perplexity など一部の企業はトラフィックを偽装しており、こうしたブロックはかえって誠実なボットだけが損をし、隠蔽を促すのではないかという疑問。この現象、つまり軍拡競争(arms race)は 20年前から続いており、新しい現象ではない。Cloudflare のグローバルシグナル、ボットスコアリング、トラフィック指紋化のおかげで、偽装した AI ボットもかなり判別できる構造だという関連説明リンクも共有 blog.cloudflare.com 参考
    • 誠実で透明なボットだけを規制すれば、偽装された隠密クロールが増えるだけではないかという問いに対し、すでに 20年以上こうした暗闘が続いており、完全に新しい話でも、答えでもないと思う
    • Super Bot Fight Mode の Block AI Bots オプションは、実際にボットトラフィックの大半をかなりうまく除去してくれたし、robots.txt や user agent 依存ではなくトラフィックパターンを分析するアプローチだった。そのおかげで自分のツールを動かすには別途バイパスルールが必要になるほどだった
    • Cloudflare は、彼らが好まないユーザーに対してインターネット利用を非常に困難にする方法をよく知っている。robots.txt でボットが悪意あるものと分類されないようにしておけば、サイト単位で許可する余地は生まれるが、それ以外は Cloudflare 独自の処理方法を使うことになるだろう
    • 大量スクレイピングを行う AI ボットは、Cloudflare の立場から見れば実際には隠すのが難しく、指紋化やネットワークレベルの複数のシグナルで判別可能だ。実際、大企業は Cloudflare と直接やり取りしているので、最終的には警告や対応など多様な手段がある状況だと予想される
  • 主要な AI 企業は本当に robots.txt を尊重するのだろうか。公開されているクローラーの一部だけは守るのかもしれないが、結局は水面下で隠れた方法によるクロールを回しているのではないかという疑い。実際、書籍、画像、ユーザーデータまで違法にかき集めて使った前歴がある
    • 小規模クローラーが大企業を装ってブロックを回避しようとすることも多く、区別が難しい
    • robots.txt を守ることはあくまで慣行にすぎず、特に法的・技術的な強制力はない。利用規約に robots.txt ポリシー順守条項を明記することはできるかもしれないが、実際の効力は疑問だ
    • このトラフィックのかなりの部分は、AI が直接スクレイピングしているのではなく、人間が AI に質問したとき、その都度インターネットを調べに行く形かもしれない。ブラウザのようなリサーチ用途まで robots.txt の規制範囲と見るのか、それともインデクシング用途だけと見るのか混乱がある
    • Cloudflare のゲートキーパー的役割そのものは好ましくないが、AI 企業に実際の影響力を行使できる立場にはいる
  • 現在ブロック対象となっている AI ボットの一覧は非常に短い 参考リンク
    • Cloudflare の説明では Common Crawl(CCBot) も AI Bots として分類され、ブロックオプションに含まれている。しかし Common Crawl は実際には AI 専用ボットではなく、オープンクローリング基盤だ 参考リンク
    • Cloudflare は膨大な Web トラフィックを観測しているため、今捕捉されているボットの一覧は発生頻度の高いものが中心で、今後発見されるボットがあれば継続的に追加されていくだろう。実際、すべてのクローラーをブロックするのは不可能だろうが、インターネット全体を基準に見れば、Cloudflare ほど多くのボットを検知できる場所は少ないはずだ
    • こうしたブロックだけでも、大半のサイトではトラフィックを半分以下に減らす効果がありそうだ
  • Web の主要な進化(Web2 の囲い込み、Web3 の空虚さ、そして今)は、ますますコミュニティや知識保存庫としての役割から遠ざかる方向に近い。品質や技術は進歩し続けてきた一方で、それだけ失われたものも多い