4 ポイント 投稿者 GN⁺ 2025-08-05 | まだコメントはありません。 | WhatsAppで共有
  • Perplexityクロール禁止 指示を回避するために、身元を隠したウェブクローラーを使用
  • robots.txt ファイルを無視し、IP や User Agent を継続的に変更する行為が確認された
  • 新規ドメインの実験で、禁止設定にもかかわらず Perplexity がサイトコンテンツへアクセスしたことが確認された
  • Cloudflare は このような行為 を防止するため、Perplexity を公式認証ボットから除外し、管理ルールを修正した
  • OpenAI のような善意のボット運用者と対照的に、Perplexity の隠匿的な行動が問題視された

Perplexity のステルスクローラー使用事案の概要

  • Perplexity は AI ベースの回答エンジンとして、最初は公式に申告されたユーザーエージェントでウェブサイトをクロールしていた
  • しかしネットワークブロックに直面すると、身元を隠すために User Agent を変更し、さまざまな ASN(自律システム番号) を通じてアクセスを試みた
  • この過程で、robots.txt ファイルを無視したり、そもそもリクエストしないでアクセスしようとする試行が多数見つかった

サイトとクローラーの信頼原則と問題となる行動

  • 数十年にわたりインターネットは 信頼 を基盤として発展しており、クローラーも透明性、目的の明確性、明確な行動基準を備えることが原則
  • クローラーはウェブサイト所有者の指針と優先事項を尊重すべきであり、Perplexity の今回観測された行動はこれらの原則に反する
  • そのため Cloudflare は Perplexity を公式の認証済みボット一覧から 除外 し、ステルスボットの検出・遮断のための追加管理ルールを適用した

実験と検出事例

  • Cloudflare は 新規ドメイン を作成して Perplexity のクローリング行為を実験した
    • robots.txt であらゆる自動アクセスを禁止し、WAF ルールを追加設定した
    • Perplexity の公式 User Agent と IP をブロックしたにもかかわらず、なお身元を隠してサイトコンテンツを収集した事実が確認された
  • Perplexity は公式およびステルス User Agent の両方でコンテンツアクセスを試み、後者は実ブラウザ(Chrome)としてなりすました
区分 User Agent 例 日次リクエスト数
公式 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) 2,000万~2,500万
ステルス Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 300万~600万
  • 公式の IP 範囲に含まれない複数の IP と ASN を使用し、IP を継続的に置き換えてブロック方針を回避しようとした
  • その結果、数万件のドメインと数百万件のリクエストでこの活動が識別され、Cloudflare は機械学習とネットワークシグナルを活用して当該クローラーを特定した

ステルスクローラーの回避事例と限界

  • ステルスクローラーをブロックすると、Perplexity は他のウェブサイトなど外部の情報を使って回答を提供しようとする
  • ただしこの場合、コンテンツの粒度が著しく低下する現象も確認された

善意のボット運用者の基準と OpenAI のベストプラクティス

  • 適切に運用されるボットは、透明性、身元の明確化、活動目的の公開、活動ごとの独立したボット利用、ウェブマスター規則(robots.txt など)の遵守などの原則を備えるべき
  • OpenAI は公式 IP と User Agent、クローラー活動の目的を透明に提供し、robots.txt を厳密に遵守している
  • 実験でも ChatGPT クローラーは disallow 設定やネットワークブロックを検知すると、追加のクロール試行を停止した
  • Web Bot Auth などの標準化された認証方式も積極的に導入している

保護方法と対策

  • Perplexity の未申告 User Agent から発生したすべてのクロールは、Cloudflare のボット管理システムで検出され、遮断された
  • Cloudflare の既存のボットブロックルールまたはチャレンジルールを有効化している顧客はすでに保護対象
  • ステルスクローラー遮断向けの管理者ルールがすべての顧客(無料顧客を含む)に提供される
  • Content Independence Day の発表後、250万件以上のウェブサイトが AI クロール禁止ポリシーを適用した
  • ボット運用者の継続的に進化する回避試行に合わせて、Cloudflare も対応体制と技術を持続的に進化させている

政策的な取り組みと将来展望

  • Cloudflare は世界中の技術・政策専門家、IETF などとともに、robots.txt の拡張標準化についての議論に積極的に参加している
  • 信頼されるクローラーのルールを確立し、急速に変化する AI とクローラー環境の中で透明性とコンプライアンスを重視する方向に進んでいる

まだコメントはありません。

まだコメントはありません。