1 ポイント 投稿者 GN⁺ 2025-09-02 | 1件のコメント | WhatsAppで共有
  • Cloudflare RadarにAI Insights専用ページが追加され、AIボット・クローラートラフィック、DNSベースの生成AIサービスの人気度、robots.txtの指示、Workers AIモデルの利用トレンドを1画面で把握可能
  • AIボットおよびクローラートラフィックのグラフは、ai.robots.txtリストをもとに主要UAの時系列/要約データを提供し、Radar API・Data Explorerによる詳細分析を支援
  • 1.1.1.1 DNSデータを利用した生成AIサービスの順位は日次集計で変化の推移を示し、2025年1月末のDeepSeekの急上昇(1/26登場→1/29に3位)のような新興サービスの急激な変動を確認可能
  • robots.txt分析は上位10,000ドメインのAI関連Allow/Disallow指示を集計してカテゴリ別のブロック傾向を可視化し、ニュース・メディア分野における広範な不許可傾向を表示
  • Workers AIモデル/タスクの人気度は共有データをもとにモデル・タスク別の利用量トレンドと期間比較を提供し、急速に進化するモデルエコシステムの流れの理解に貢献

概要

  • CloudflareはRadarにAI Insightsページを新設し、AI関連のトラフィック動向・サービス人気・アクセス制御・モデル利用を統合提供
  • データソースは1.1.1.1 DNSトラフィックai.robots.txtユーザーエージェント一覧Workers AI共有データ、Radar API/Data Explorer連携

AIボットおよびクローラーのトラフィック動向

  • 上位5つのAIボット/クローラーの活動を期間別に可視化し、リクエスト強度・周期性の把握を提供
    • ユーザーエージェント収集基準はai.robots.txtリストを参照し、継続的に更新
    • 時系列/要約APIエンドポイントを通じてプログラムによるアクセスを支援
  • Data ExplorerでAIボット全体集合に対する広域動向を探索可能
    • 運用担当者は地域・期間・UA基準で異常トラフィックを点検可能
    • 内部対応ポリシーとの相関分析に活用可能

生成AIサービスの人気

  • 1.1.1.1 DNSリクエスト量を基に公開生成AIサービスの相対順位を日単位で提供
    • 2023/2024年次レビューではChatGPTの1位継続を記録
    • 2025年1月末には6~10位圏の変動性が高く観測
    広告
  • DeepSeekは1月26日の初登場後、1月29日に3位へ急上昇
    • 急成長する新興サービスの検知に有用な高頻度順位データを提供
    • Radar APIでserviceCategory=Generative%20AIパラメータにより元データの時系列へアクセス可能

robots.txtファイル分析

  • 上位10,000ドメインを定期的に収集し、AI関連のAllow/Disallow指示を集計
    • グラフは完全許可/不許可・部分許可/不許可をユーザーエージェント別に要約
    • ニュース・メディアカテゴリではAI UAに対する広範な不許可傾向を表示
  • Allow指示基準では明示的に許可するサイト数が大きく減少
    • UA未記載およびワイルドカード不在時はデフォルトで全面許可として動作する点に注意
    • Radar API・Data Explorerでボット別/指示別のフィルタ分析を支援
広告

Workers AIモデルおよびタスクの人気度

  • Workers AIで公開サポートされるモデル・タスク(Task)の利用トレンドを共有データベースで可視化
    • モデル人気度/タスク人気度をそれぞれ時系列・要約で提供
    • Data Explorerでは期間比較(timeCompare)機能により前月比の増減を分析可能
  • モデル例: テキスト生成、画像生成、音声認識、画像分類など多様なタスクをカバー
    • 新たな高性能モデルの公開時に早期可視化を通じて先手の対応に活用可能

結論と示唆

  • AIエコシステムは急激な変動性を示し、新興サービスが短期間で急成長する事例が多数
    • 生成サービスの拡大とともにコンテンツスクレイピング・著作権・アクセス制御の課題が継続的な緊張関係にある
  • AI Insightsページトラフィック・人気・アクセス制御・モデル利用を統合的に提供し、業界ウォッチャー・実務担当者タイムリーな動向把握に有用
    • 運用担当者はRadar API・Data Explorerを通じた自動化された監視・レポーティング体制を構築可能
    • robots.txt指示戦略CDN/セキュリティポリシーを連携させてAIボット対応を高度化可能

1件のコメント

 
GN⁺ 2025-09-02
Hacker Newsのコメント
  • OpenAIがWebBotAuthを通じて認証ステータスが「In Progress」であることを確認した。Cloudflareが「良いボット」の門番になろうとしている動きのように見える。「In Progress」という状態が存在すること自体に意味がある。他社には単に「No」なのに、OpenAIには「まだではないが、CFには計画を伝えてある」と言っているわけだ
    • Cloudflareは二重の収益化を狙っているように見える。CDN利用者から料金を取り、今度はその利用者のコンテンツへのアクセス権のためにも再び金を取る構図だ。OpenAIがこうしてやられているのは痛快でもあるが、これで終わりではなさそうだ。Kagiや他の検索エンジンが今後も安価で有用であり続けられるのか疑問だし、Internet Archiveのようなサービスがこの状況でどう運営するのかも気になる
    • Cloudflareがウェブサイトへの望まれないトラフィックを防ぐ仕事をしていることが、なぜこんなに驚くべきことのように感じられるのか分からない。もともとそれが彼らのビジネスモデルだ
    • 実際、ボットをもう少し合理的に認証できる仕組みはずっと前から必要だった。これはAIボットに限った話ではない
    • Cloudflareは今やインターネットのゲートキーパーの列に加わったわけだ。今のところOpenAIだけがこうした認証を受けようとしていて、Amazonもある程度追随しているようだ。他社にはこうした要求に抵抗してほしい
    • Eastdakota(Cloudflare CEO)が「最近はみんな次の時代のゲームに飛び込むために必死だ。私がまた席を用意してあげられる」と言い、Sam(おそらくOpenAI側)が「自分が席から押し出されていたとは知らなかった」と返すと、Eastdakotaは「完全に押し出されたわけではないが、もう後悔する段階ではある」といった調子で会話していた
  • 本当に驚くべきデータだ。「Generative AI services popularity」チャートでChatGPTが1位なのは当然として、Character.AIがAnthropic、Perplexity、xAIを抜いて2位なのは驚きだ。このデータは各サービスのDNSキャッシュ戦略の影響を大きく受けている可能性があると思う。もう一つ興味深いチャートは「Workers AI model popularity」だ。llama-3-8b-instructが4月以来シェア30〜40%で1位を走っているが、これほど人気のある小型LLMは珍しい。もともとはMetaのm2m100-1.2bやAlphabetのGemma 3 270Mがもっと使われると思っていた。おそらくCF workerに載せられる最も強力なモデルを使っているからだろう。もっと幅広い人気分析については、私の「LLM Assistant Census」ブログ記事を参照してほしい
    Generative AIサービス順位を見る
    Workers AIモデル順位を見る
    LLM Assistant Census
    • DNSキャッシュがなぜ結果を歪めるのか気になる。Cloudflareはサイトをプロキシする際にHTTPリクエスト全体を見られるのだから、わざわざDNSクエリだけで統計を集計したとは思えない。他のコメントでDNSの話が出ていたが、統計の集計方法に何か抜けがあるのではないかと思う
    • Character.AIは若い利用者の間で非常に人気がある。だから2位でもそれほど驚きではない
  • 最近、各社がウェブをどれくらい深くクロールしているのか調べようとしていた。その結果、OpenAIのボットが最も徹底していて、405個のリンクをたどっていた
    クロールデータを詳しく見る
    • 興味深い統計だ。私のハニーポットではGPTBotが最大92段階の深さまで来た。たぶん私のサイトのほうがあまり魅力的ではないからだろう
  • Cloudflareはボット判定において、AI Botをどう定義するかを自ら決めている。たとえばCommon CrawlのCCBotはさまざまな目的に使われていて、研究論文でも1万本以上に引用されているが、CloudflareはCCBotを単に「AI Bot」と見なしている。だが実際には、ウェブサイト運営者の大半はどのボットがAI Botなのか、そのリストがなぜそう選ばれているのかをよく分かっていないのではないか
  • 「Top Browser & user agents」でFirefoxのシェアが3.8%だという事実は悲しい
    Cloudflareブラウザ統計
    • 私が見る限り、Firefoxは上位5ブラウザの中で唯一、デフォルトでプリインストールされていないブラウザだ。ほとんどの人はデフォルトから離れるほどの不便さを感じない。だから90%以上はFirefoxのような代替ブラウザを探すところまで行かない
    • 初期のころはFirefoxのほうが優れたブラウザで、既存ブラウザが提供していなかった実用的な機能のおかげで市場シェアを獲得していた。今のFirefoxは差別化のないChrome亜種にすぎない。アドオンなどを知らない一般ユーザーがFirefoxを選ぶ理由はない。Firefoxが本当に有用な機能、たとえば内蔵の広告/迷惑要素ブロックのようなものを備えれば再びシェアを取れるかもしれないが、実際にはその気がなさそうだ
    • 広告会社が作ったブラウザをどうして自発的に使うのか理解できない。Chromeユーザーの大半はそんな事実を知らないのだろうが、ここを読んでいる人の中にもGoogleやChromeの本質を知りつつ使っている人は多いはずだ
    • FirefoxがCloudflareの統計でボットとして自動分類され、シェアから除外されている影響がどの程度あるのか気になる
    • Firefoxはuser agent情報をきちんと、あるいはおそらくデフォルトでも、提供していないため、このシェアは実際より低く出ている可能性もある
  • DNS requestに基づくAIランキングデータは興味深い。4週間単位で見ると、Character.AIが週末には安定して2位、Claudeが3位で、平日には両者の順位が入れ替わるパターンだ。ただ、集計グラフでは日曜〜月曜の区間で順位の入れ替わりが見える。おそらく米国の時間帯とUTCの差による現象だろう
  • このデータはAI企業にもパブリッシャーにも非常に大きな価値がある。Cloudflareは誰が、いつ、何を、どれだけクロールしているのかについて前例のない可視性を持つことになる。遠くないうちに、これが高額な有料商品、まずはボット認証サービスや詳細なクロール分析などとして提供される可能性があると思う
    • これはCloudflareの成長にとって非常に大きなレバレッジになるだろう。OpenAIなどの主要企業から可能な限り多くの収益を引き出すつもりだ
  • Anthropic APIで検索した後、ユーザートラフィックをリンクそのままで該当サイトへ渡せば、Cloudflareはこの検索をAnthropic側に結び付けられなくなる。だからクロールに対する推薦トラフィックの比率は実態と異なる可能性がある
  • おそらくこうした統計には、身元を隠すためにレジデンシャルプロキシなどを使う悪質なクローラーは含まれていないだろう
  • WebBotAuth認証について、誰もCloudflareに屈せず、この試みが失敗することを心から願う