- AIクローラーに対して、コンテンツ所有者がアクセス時に課金できる新サービスを発表
- コンテンツ制作者は、無料許可、完全遮断、または有料アクセス許可の3つの選択肢を持てる
- 課金は標準のHTTP 402 Payment Requiredレスポンスを基盤として動作し、Cloudflareが決済および精算インフラを提供
- クローラーとコンテンツ所有者は、プログラム方式の認証および決済を通じて透明性と安全性を確保
- このサービスはプライベートベータとして開始し、将来的には多様なユースケースと動的課金のサポートへ拡張予定
AI消費環境の変化
- 多くの出版社、コンテンツ制作者、Webサイト所有者は、これまでAIクローラーに対して、すべてのアクセスを許可するか全面的に遮断するかという二者択一しかできなかった
- Cloudflareは、コンテンツ所有者のコントロール強化を基本原則として、AIクローラーをすべて遮断することも無料で許可することもでき、望むクローラーだけを選択的に許可できる環境を目指す
- 数百のメディア企業、出版社、大手ソーシャルプラットフォームなどとの議論を通じて、AIクローラーにアクセスを許可しつつ対価も得たいというニーズが大きいことを確認
- 従来はクローラーと個別交渉したうえでアクセスを許可する必要があったが、規模と交渉力の不足により、小規模サイトには実質的に不可能だった
「クロールごとの課金(pay per crawl)」モデルの導入
- 無料または遮断という極端な選択肢に加え、Cloudflareはアクセス課金という第3のオプションを提案
- これによりコンテンツ所有者は、インターネット規模でデジタル資産の収益化が可能になる
- 中核となる技術基盤は、ほとんど忘れられていたHTTP 402 Payment Requiredステータスコードで、クローラーが支払い意思を示した場合は200 OKでコンテンツを提供し、そうでなければ402レスポンスで価格を通知
- CloudflareはMerchant of Recordとして、決済処理と技術インフラを担う
出版社の調整権限と価格ポリシー
- サイト全体に対する固定単価を出版社が設定可能
- 許可(無料提供)
- 課金(設定価格の支払い時に提供)
- 遮断(アクセス不可、および今後の関係の可能性を案内)
- クローラーごとに課金例外、無料アクセス許可、個別交渉など柔軟なポリシー運用を支援
- Cloudflareの**セキュリティポリシー(WAF、ボット管理など)**と連携し、既存のファイアウォールを優先適用した後にpay per crawlルールが動作
認証および決済プロトコル: Web Bot Auth
- 特定のクローラーだけが決済とアクセス権を得られるよう設計されており、クローラーIDの偽装(スプーフィング)を防止
- クローラーはEd25519鍵ペアを生成し、JWK形式の公開鍵ディレクトリに登録し、Cloudflareに情報を提出する必要がある
- HTTPメッセージ署名(Signature-Agent、Signature-Input、Signature)ヘッダーで身元と支払い意思を証明
有料コンテンツへのアクセス方式
- 2つのプロトコルをサポート
- リアクティブ(発見優先): クローラーが有料URLをリクエストすると402レスポンスと価格提示を受け、同意した場合は再リクエストで
crawler-exact-priceヘッダーを含める
- プロアクティブ(意図優先): 最初のリクエストに
crawler-max-priceヘッダーで支払い上限を送信し、基準額以下なら200 OKと課金明細を受け取る
- 価格交渉と支払い意思の表明がプログラマブルな方式でサポートされる
精算および財務処理
- クローラー運営者とコンテンツ所有者は、Cloudflareアカウントに決済情報の登録が必要
- 認証済みの決済リクエストと200 OKレスポンスごとに課金イベントを記録し、Cloudflareが集計後にクローラーへ請求し、出版社へ精算
エージェント時代に向けた変化の始まり
- pay per crawlはオンラインコンテンツ制御技術の進化を象徴
- プログラマブルな資産価値の算定方式を通じた制作者保護と新たなBM(ビジネスモデル)拡張が期待される
- 今後はコンテンツ種別/パス別の動的課金、AIトラフィック規模ベースの料金算定、大規模ライセンス管理など、さまざまな拡張性が議論されている
- HTTP 402の採用により、AI/エージェントがデジタル資源へのアクセス条件をプログラム的に交渉する未来に対応可能
開始案内
- pay per crawl機能はプライベートベータとして先行提供中
- 利用を希望するクローラーおよびコンテンツ制作者は、別途申請リンクから問い合わせ可能
- CloudflareはDDoS防御、インターネット接続の高速化、インターネットアプリケーション構築、ハッカー遮断、Zero Trust実装なども支援
関連する追加情報と動向
- 「Content Independence Day」など、クローラーの無償クロール遮断の動きとCloudflareのボット管理ソリューション拡大が進行中
- 2024〜2025年の間にAIクローラートラフィックが18%増加し、GPTBot 305%、Googlebot 96%の成長数値を公表
- 公開鍵ベースのメッセージ署名によるクローラー認証強化機能も同時導入
5件のコメント
翻訳: https://rosettalens.com/s/ko/introducing-pay-per-crawl
AIボットかどうかを何で見分けるのでしょうか
AIかどうかはさておき、クローリングも本気でやれば検知できないそうだ
Cloudflareが儲けようとしているということで、
結局、儲けようとする人たちはみなあちらに集まるだろうし、
Cloudflareのボリュームは大きくなり、
データは質的な低下を経験することになるはず。
NaverもInstagramもYouTubeも、お金が絡む場所はどこも同じ傾向を見せてきた部分がある
Hacker Newsの意見
これは私たちが望んでいたマイクロペイメントの形だと思う。Coinbaseが最近、暗号資産と402ステータスコードを使ったライブラリを公開したが、それが x402 だ x402 GitHubリンク
Webのビジネスモデルは、広告仲介業者ではなくこうあるべきだと思う。アドテク業界は私たちのデータを恒久的に搾取し、メディアを汚染し、民主主義にも害を与えてきた。数十年後には、今の広告モデルがどれほど有害だったかを理解し、Big Tobacco のように関連企業を規制・処罰できるようになっていてほしい。BraveのBATも良い試みだが、x402のほうがより普遍的な解決策に感じられる。ただ、暗号資産への否定的な認識と広告業界の強い影響力のせいで、こうした方式が定着するのは簡単ではなさそうだ
私は暗号資産を使いたくないし、暗号資産でコンテンツの対価を受け取りたくもないし、仲介業者に手数料も払いたくない。マイクロペイメントに暗号資産を使うのは、実際には暗号資産エコシステムを持ち上げるための手段のように感じる。加えて、どのコインで支払うかを誰もが合意するのは難しい。各サイトがそれぞれ別のコインしか受け付けない状況、あるいは単一のStablecoinしか受け付けない状況になれば、統制も難しくなる。Cloudflareの方式のほうがよい。この方式では、収益を上げる側が費用を負担し、一般ユーザーには支払いを求めない。そして暗号資産も使わない
間違っていてほしいが、マイクロペイメントの機会はすでに逃してしまった気がする。昔のフィーチャーフォンのプリペイドチャージのように、「インターネットに1万円チャージ」しておいて、サイトがそこからマイクロペイメントを差し引く仕組みだったなら、うまく定着していたと思う。でも今は、このシステムを実装して市場全体が参加するには、あまりにも多くのインフラと合意が必要で、タイミングを逃した気がする
この技術は本当に興味深い。私の理解が正しければ、プロトコルがアドレスと支払額を渡した時点で即応答するように設計されていないのが気になる。その後の試行を、金額とウォレットアドレスのチェックサムが返るまでブロックし、そのチェックサムをサードパーティーに検証させれば、各サーバーが検証ロジックを実装しなくても済む。デジタル経済を本当に成立させるには2つ必要だ。1) コンテンツは要求者だけが消費でき、複製・保存できないこと、2) コンテンツには人間が付与した評判や格付けの仕組みがあること。前者はDRMや準同型暗号で、後者はDAO化された評価機関で解決できるはずだ。評価者としてDAOに参加するには、ブロックチェーンベースの実績証明を共有し、高価な暗号資産をステークする(=ライセンス)ことで信頼性を高められる。BitTorrentインデックスのようにコンテンツと評価者を結び付けられれば、中間広告もなくせる。この構造が完成すれば、専門性のある人々が価値創出に参加しながら仲介者を排除でき、人間がコンテンツ経済の中心になれる。コンテンツの二重支払い問題を解決できれば、人々は継続的に報酬を得ながらオフラインの専門性も高められる。たとえば良い本や映画を探すとき、AmazonやGoodreadsの評価を参考にするが、現在の評価提供者にはそれに見合う利害関係がない。そうした評価コンテンツが評価機関のような公信力を持てば、個別作品の価値もさらに高められる。誰もが自分の評判を守るよう動機づけられる
この概念自体は新しいものではない。私も2018年に ln-paywall という、402ステータスコードを活用したプロジェクトを作ったことがある
私はこの方式は完全に間違ったアプローチだと思う。Cloudflareは単に「昔のようにクロールするが、今はもっと金を払え」と言っているだけで、それに見合う価値を提供していない。クロールはAI企業や新しい検索エンジンにとって競争優位ではない。コストがかかり、注意を分散させる作業にすぎない。これらの企業はインフラを共有して協力するのが合理的だ。各社が個別にサイトへアクセスする必要はなく、1つのクローラーだけが全サイトを訪れ、各社は独自のフィルターを設定して、一致したURLに比例して負担する構造が理想だ。何度もトラフィックを流す代わりに単一のクローラーを置き、robots.txtの規則も技術的・契約的に強制すれば、望まれないコンテンツは提供されず、それを回避するには自前のクローラーを技術的に維持しなければならないので相当な負担になる。ここに課金を追加したとしても、事前に見たこともない無数のゴミページに支払う可能性が高く、価値がない。この案なら、AI企業や検索エンジンにとっても安価で簡単にクロールでき、サイト側にとっても負荷を大幅に減らしブロック効果を高められる。なのにCloudflareはただ「金を払え」と言うだけで、想像力が乏しく説得力がない
ここで適切なインセンティブ構造を見るには、市場の反対側を見るべきだと思う。コンテンツ制作者にとって問題なのは、サイトにトラフィックが集中することではなく、そのトラフィックに対して適正な対価を受け取れないことだ。8社が私のサイトの全ページを毎日10回訪問しても、市場価格に見合う対価を受け取れるなら何の問題もない。そうなれば8社の側は、コストを外部化できなくなるので、協力してクロールを統合する動機が生まれる。この方式のほうがむしろ全員にとって合理的だ
Common Crawl は本来その役割を果たすはずだったが、皮肉にもAIスタートアップがそのデータをあまりに貪欲に取り込もうとしたため、最近では使えないほど負荷が高い。こうした問題のために、Webクロール代行市場が成立する余地があり、企業にとってはクローラーをアウトソースするのがいろいろな面で有利だと思う。もちろん、これが十分に大きなビジネス市場を形成するほどのニーズかはまだわからないが、まともなWebデータアクセスやクロール能力が必要なのは確かだ
WebクロールがAI企業にとって競争優位ではないという意見とは逆に、最新情報や特定の情報源を素早く反映する能力は明らかに競争力だ。問題は、彼らがサイトのコンテンツを持ち去るときにサイトへ何の対価も払わず、トラフィックも流入させないため、Webエコシステムを破壊してしまうことだ。特にサイト側から見ると、AIボットが自分の情報を読んでも自分に戻ってくる価値はゼロだ
仮にクロールトラフィックがある程度の金を払うなら、インフラコストの負担は問題にならない。過去にも大規模トラフィックでサイトが死ぬことはまれだった。最近は、1) ますます多くのサイトがボットやスクレイパーなどを直接ブロックしているか、2) それができない場所(アクセス制御が難しい、または収益構造のないサイト)が爆撃されている。もしこうした構造の中で実際にサイトへ金が支払われるなら、少なくとも過剰なボットトラフィックによる負担はカバーでき、それ以上の利益も得られる
それでも、このコスト構造が協力への直接的なインセンティブとして機能するのではないかと思う
結局こうした点のせいで、GoogleがAIでも引き続き優位を保つことになる。大半の人は Googlebot にサイトをクロールしてほしいと思っている。そこからトラフィックが生まれ、GoogleはそのインデックスをAI学習にも活用する。独占的ではあるかもしれないが、双方に利益があると思う。しかしOpenAI、Anthropic、Metaのようにクロールするだけで何の補償もしない企業なら、自分のサイトをクロールしてほしいと思う人はほとんどいないはずだ。だからCloudflareのこの方針は時宜を得ていると思う。もしこれが成功すれば、Cloudflareにとっても巨大な機会だ
Googleの「AI Overview」のせいでクリック率が大きく落ちている。以前はGoogleが2ページをクロールすると1人のトラフィックが来ていたが、6か月前は6:1、今は18:1だ。何が変わったかというとAI Overviewsだ。OpenAIはさらにひどく、6か月前は250:1、今は1,500:1で、AIが元リンクへの流入をすべて横取りしている。(Xの参考資料: https://twitter.com/ethanhays/status/1938651733976310151)
私はスタートアップなので、自分のサイトがAIにクロールされるのをむしろ望んでいる。人々がChatGPTに「$CompanyName って何?」と尋ねたとき、私たちの会社の強みやコアメッセージがきちんと反映されてほしい。従来型のSEOコンテンツもAI学習データとして利用されうる。AIツールにWeb上の長所短所を要約させると、"top 10 tools for X" のように、ある企業が自社ブログに載せたリスト形式の記事がしばしば情報源になる。観光庁のような大企業や、自分たちの視点を世界に説得力を持って広めたい組織でも同じだ
OpenAI、Anthropic、Metaが人間が直接書いたコンテンツをクロールしていきながら何の補償も受けられない点に触れていたが、実際には政府機関や大企業のように、クロールされること自体がむしろ利益になる場合も多い。たとえばグローバルAIが「カンガルーをどう見ればいいですか?」という質問に対して、オーストラリアではなくニュージーランドの動物園(ニュージーランドのフラッグキャリアや動物など)を勧めたら問題だ。正しい情報がAIモデルに反映されることで、非常に広い人々に影響を与えられる
Googleには Google Books のようなプロジェクトもあるので、他の西側企業がこれほど大規模に学習資料を確保するのは難しい。一方、中国企業は著作権をあまり気にしないので、この点は大きな違いだ
GoogleがAIで必ずしも優位だとは思わない。消費者の立場では、GoogleのAI Overviewは驚くほど間違っていることが多い。技術的には優れたAPIや品質、機能を提供できるかもしれないが、一般ユーザーが目にする主なAI体験としては良くない
技術そのものはクールだが、すべてのクローラーがCloudflareを使わなければならない点は気に入らない。Google Chromeの開発者が Web Monetization API を提案していたことがあったと記憶しているが、分散型の決済構造を導入すれば特定企業に依存しなくて済む
良い方向性ではあるが、まだ足りない点が多い。最も理想的なのは、利用目的に応じて差別化した料金を課すことだ。たとえば「研究目的」でサイトをクロールするなら、ほぼ無料であるべきだ。「商品化するAI学習用」なら非常に高額であるべきだと思う。こういう方式を考えなければならないのは残念だが、今は従来のやり方が事実上禁止されるほどの状況なので、現実的には対価なしの完全無料公開は不可能だ。誰かがすべての情報を無料提供する世界図書館を作り、それに合わせたIP補償制度まであれば、人類全体に利益があると思う。技術的制約の大半はすでに解消された時代なのに、今なお事実上の「カルテル的」制限だけが続いている。だから今は仕方なく「それならせめて対価を払え」という方向になる
こうなると結局、利益を狙う人があらゆる抜け穴を見つけて悪用したり、意図と違ってデータを転売したり、システムに侵入したりするケースが増える。たとえば「研究用は無料」としても、「私は研究のために来ました!」と主張するだけで、実際には自分の関連会社にデータを売って利益を得ることができてしまう
こうした「すべてのデータを無料共有する図書館」は技術的には可能に見えても、経済的持続性が核心的な問題だ。アクセスコストが低すぎると、むしろ無限複製や過剰利用が起きてシステムが崩壊する。むしろ一定の制約があるほうが、協力と品質向上に有利なインセンティブを生む。(生物学の r/K戦略のように)制約があると個体あたりの価値が高くなり、高品質な情報やサービスが拡大しうる。結局、オフラインの公共図書館がこうした最適点に最も近かったのかもしれない
HNではこの問題が過小評価されているようだが、とてつもなく大きな変化だ。Web全体の20%がCloudflareの上にある。この機能がすべての顧客、無料ブログ運営者にまで提供されるなら、ブロガーもお金を受け取れる面白い仕組みになる
近いうちに、ブラウザを使うたびに少額決済を求められる仕組みに変わって、インターネットがなくなってしまうのではないかと心配だ
すでにCloudflareのボット検知のせいでずいぶん時間を浪費している。Chrome+uBlockの組み合わせを使っているが、そのうち支払えという画面まで見ることになりそうだ。CAPTCHAが出たら、そのサイトは使わずに別のところへ行く
実際には、何十個もの広告やペイウォールに悩まされるよりましかもしれない
AIクローラーが障害者向けのWebナビゲーション支援ツールとして使われるケースも考える必要がある。UI自動化機能はすでに各種認証手続きで多くの障害に直面している
サイト運営者はそうしたクローラーを許可できる。悪意ある参加者が善意を装ってアクセスする問題は、従来から GoogleのWebクローラーは許可するがGeminiの学習用はブロックしたい、といった形ですでに存在しているため、これに対する技術的解決策が必要だ
個人ユーザーがクローラーを使ってWebを「探索する」とは、正確にはどういう意味なのかよくわからない。AIブラウザは即クローラーというわけではない。クローラーとは、Webサイト全体を大規模に収集(ハーベスト)する道具だ
すでに ARIA という標準的なアクセシビリティ技術があり、主要なサイトはそれをすべて実装している。アクセシビリティ用途にAIは本来必要ないはずだし、使われるべきでもない
以前は、インターネットで有用な検索を提供する会社を「良い会社」だと思っていた。そして今はCloudflareが、DDoS防御、CDN、AIからの保護などの「良いこと」をしているように見える。だが、こういう会社もそのうち嫌われる存在になる可能性がある
Cloudflareは誰からも嫌われる企業ではまだないが、その影響力が大きくなるほど緊張感は高まる。Blueskyが "the company is tomorrow's adversary" と言っていたが、Cloudflareも強力な「敵対者」へ成長しつつある
私の現実の友人たちはすでにCloudflareを嫌っている
インターネットに「良いこと」をしていると言われるが、Cloudflareがもたらす認証・検証の摩擦のせいで、私は Stack Exchange よりもLLM(大規模言語モデル)を使うことが増えた
全体としてはこのアイデアに賛成だが、大企業はさまざまなデータ迂回ルートを見つけるだろうし(特にGoogleは検索エンジンを口実に無料クロールするだろう)、実際に成功すればそのコストは最終的に私たちエンドユーザーへ転嫁される可能性が高い
たとえGoogleが検索を口実に無料でデータをクロールするとしても、第2段階でGoogleにページ単位の料金を支払わせるのはどうだろうと思う。各記事ごとに、クローラーがアクセスできない区間を料金別に設定し、たとえば主要ニュースには高額料金を要求し、一般情報用、LLM学習用、社内研究用など目的別ライセンスをそれぞれ価格付きで明示できる。Cloudflareが数百万サイトの中間ハブとして機能するなら、十分に可能な構造だ
さらに多くの発行者(パブリッシャー)が Googlebot もブロックするようになるだろう。理由は、GoogleがすでにAI検索回答によって発行者の収益を奪っているからだ