11 ポイント 投稿者 GN⁺ 2026-03-11 | 5件のコメント | WhatsAppで共有
  • Cloudflare が Browser Rendering の新しい /crawl エンドポイントをオープンベータとして提供開始。たった 1 回の API 呼び出しでウェブサイト全体をクロール可能
  • 開始 URL を送信すると、ページを自動的に探索し、ヘッドレスブラウザでレンダリングして、結果を HTML、Markdown、JSON 形式で返す
  • Workers AI ベースの構造化 JSON 出力、クロール深度、ページ数制限、ワイルドカードパターンなどの スコープ制御機能に加え、増分クロール、静的モードなど多様な機能を提供
  • robots.txt のルールを順守し、異常なトラフィックを防ぐ crawl-delay にも対応
  • モデル学習、RAG パイプライン構築、サイト全体のコンテンツ調査およびモニタリングに活用可能

/crawl エンドポイント概要

  • Cloudflare の Browser Rendering サービスに新たに追加された /crawl エンドポイントは、単一の API 呼び出しでウェブサイト全体を探索し、コンテンツを収集する機能を提供
    • ユーザーが開始 URL を送信すると、システムが自動的にリンクをたどりながらページをレンダリングし、結果を返す
    • 返却形式は HTMLMarkdown構造化 JSON から選択可能
  • この機能は オープンベータ(open beta) として提供され、Workers Free および Paid プランの両方で利用可能
  • クロール処理は 非同期(asynchronous) 方式で実行される
    • URL を送信すると job ID を受け取り、その後、処理完了時点で結果を取得できる
    • ページは順次処理され、完了した結果を段階的に確認可能

主な機能

  • 複数の出力形式をサポート
    • HTML、Markdown、JSON など、さまざまな形式で結果を返す
    • JSON 形式は Workers AI を通じて構造化データとして提供
  • クロール範囲の制御(crawl scope controls)
    • クロール深度(depth)ページ数制限URL パターンの包含/除外設定が可能
  • 自動ページ探索(automatic page discovery)
    • サイトマップ(sitemap)ページリンク、またはその両方をもとに URL を自動探索
  • 増分クロール(incremental crawling)
    • modifiedSincemaxAge パラメータを使って変更されていないページをスキップし、時間とコストを削減
  • 静的モード(static mode)
    • render: false 設定時はブラウザを起動せず、静的 HTML のみを取得し、静的サイトを高速にクロール可能
  • 適切に振る舞うボット(well-behaved bot)
    • robots.txt の指示を順守し、crawl-delay 設定も認識

活用例と参考ドキュメント

利用可能プラン

  • Workers Free および Paid プランの両方で利用可能

5件のコメント

 
hmmhmmhm 2026-03-11

軽く試してみたけど、ボット対策は突破できないみたいですね。自分はまだしばらく apifyzyte を愛用することになりそうです……(笑)

 
xguru 2026-03-11

これってCloudflareのボット遮断機能も突破するんですか?
矛も売って盾も売るってことなんですか??
なんだか変ですね(笑)

 
eoeoe 2026-03-12

みんなのマーブルの始まりですね(笑)
何かのカードを防御する、何かの能力を無効化する、何かの特殊能力の……

 
cnaa97 2026-03-11

wwwww なんだか面白いですね

 
GN⁺ 2026-03-11
Hacker News のコメント
  • 私の経験では、Cloudflare で保護されたページではこれは動作しない
    残念ながら、自分で問題を作っておいて、あとから解決策を売っているようなものだ

    • Azure の bot protection さえ通過できれば大丈夫かもしれない
  • Cloudflare が、プロキシを使うウェブサイトの事前スクレイプ済みバージョンをホストしていないのは意外だ
    たとえば https://www.example.com/cdn-cgi/cached-contents.json のような形で提供できそうだし、すでにキャッシュにコンテンツがあるのだから、わざわざスクレイピングサービスや API を通す必要はないと思う
    もちろんそうしない理由はあるのだろうが、デフォルトのオプションとして提供していないのは驚きだ

    • こうしたキャッシュダンプを公開すると、元コンテンツのプライバシーや著作権に関する前提を完全に壊してしまう
      アクセス制御をかけることもできるだろうが、それは結局、誰も望んでいない複雑な CDN APIを新たに作るようなもので、法的な問題も生じる
      「便利な JSON」から「AI スクレイパーにサイト全体を渡す」までは紙一重だ
    • JSON 変換には CPU を使うし、結果を保存すればキャッシュ容量は2倍に増える
      リクエストがあったときだけ変換すれば、オリジンへのリクエストを減らしつつ、キャッシュ効率も維持できる
      私が CDN で働いていたときは、キャッシュヒット率を上げるために「second hit caching」を使っていた — 2回目のリクエストが来たときだけキャッシュに保存する方式だ
    • 完全に同じではないが、Cloudflare はすでに似た機能を提供している
      Markdown for Agents を有効にすると、AI システムが text/markdown を要求した際に、HTML をリアルタイムで Markdown に変換してくれる
    • 実際、内部的にはすでにこのような形で公開コンテンツをキャッシュベースで提供している可能性もある
    • ただし、この方式は単純なサイトには通用しても、SPA のような複雑なサイトでは依然としてブラウザレンダリングが必要なスクレイピングサービスが必要だ
  • Cloudflare がスクレイピング対策を売りながら同時にスクレイピングサービスも売っているのは、まるで暴力団のようだ
    インターネット全体にまたがる影響力があるからこそ可能なことだ

    • そうではない。公式ドキュメント に説明がある
    • 無料 DNS は全体の一部にすぎず、本当の力はキャッシュ・ルーティング・DDoS 防御サービスにある
      DNS はデータ収集と「善良なイメージ」作りのためだ
    • 単にスクレイピング防御を売っていたのではなく、ウェブ向け DDoS 防御を売っていたのだ
    • Cloudflare はパブリッシャーと AI 企業の間の仲介者になろうとしているように見える
      パブリッシャーが Cloudflare の背後にいて、AI 企業がデータを欲しがるなら Cloudflare 経由で有料アクセスさせる構図だ
      一般ユーザーではなく、AI 企業が主な顧客層だ
    • /crawl エンドポイントは robots.txt を尊重する
      つまり、クロール禁止の URL はレスポンスで "status": "disallowed" と表示される
  • 構造化されたcrawl endpointを公開するのは、robots.txtsitemap の自然な進化のように感じる
    より多くのサイトがこうした機械可読な入口を提供すれば、インデックス作成ははるかに効率的になるだろう
    今はクローラーが同じ構造を何度も再探索していて、無駄が多い

    • REST を使い続けていれば、インデックス作成の無駄はずっと少なかった気がする
      私は API を人間中心で設計し、その上で LLM プロバイダーが最適化する形のほうが好みだ
    • 実際にはsemantic HTMLがすでにその役割を果たしている
      HTML と DOM は本質的に機械が読むための構造
      新しいものを発明する必要はなく、既存技術を正しく活用すればよい
    • 非効率なクロールで得をするのはanti-bot ソリューション業者だけ
    • だが、こうした構造はサプライチェーン攻撃を悪化させる可能性もある
      人間には正常なページを見せ、ボットには別のページを見せるといった悪用が考えられる
    • 結局、クローラーと人間に異なるコンテンツを見せることは根本的な問題を生む
  • ウェブアーカイブ用途に使えただろうに、WARC フォーマットのサポートがないのは残念だ
    記者や研究者には有用だったはずだ

  • オリジンサーバーは依然として Cloudflare のBrowser Rendering リクエストを検知してブロックできる
    CF-Worker ヘッダーで識別でき、WAF ルールやミドルウェアでフィルタリング可能だ
    ただし、これらのリクエストは Cloudflare ASN 13335 から来て低い bot scoreを持つため、単純なスコアベースの防御は通用しない
    結局、アプリケーションレベルのレート制限と行動分析のほうが効果的だ
    構造的な衝突はあるが、検索エンジンがウェブマスターツールを提供するのと似た状況だ

    • 彼らは robots.txt に従うのだから、それが最も簡単な方法だ
  • このクローラーが bot ブロックロジックの前で動くのか後で動くのか気になった

  • 自分のサイトのうまくクロールされたバージョンを提供できたらいいのにと思っていた
    サイト管理者にそうした機能を提供すれば、クローラーは単に転送料だけ払ってアクセスできるはずだ
    自分のサイトを対象にクロールジョブを走らせ、static. サブドメインで提供するような実装もできそうだ

    • だが、それが何の用途になるのかよく分からない
      サイトが静的なら単に HTML としてレンダリングしてホスティングすればよいし、動的ならスナップショットにどんな意味があるのか疑問だ
      キャッシュを追加するほうがよいアプローチかもしれない
  • Cloudflare は最近、面白い機能を全部持っていっている感じがする
    AWS は何をしているのだろう

  • 今回の機能は本当に印象的だ
    Cloudflare が未来の方向へ先回りして動いている