1 ポイント 投稿者 GN⁺ 2024-06-16 | 1件のコメント | WhatsAppで共有
  • 著者は昨日、サーバーでAIボットをブロックする内容の記事を書き、今日はMacStoriesのために同じ作業を実施した
  • 設定完了後、FedericoはPerplexityというサイトでMacStoriesの特定の投稿を引用できた
  • 著者は自分のサイトで次の変更を適用した:
    • 3月30日: PerplexityBot などのボットをrobots.txtでブロックし始めた
    • 6月14日: nginxでサーバー側ブロックを追加した。一致する項目にはすべて403 Forbiddenレスポンスを返す
  • 著者は、すべてのAI企業がrobots.txtを無視すると仮定し、3月からリクエストしてきたが効果はなかっただろうと見ている
  • 著者はAIボットブロックに関する記事をブロック措置適用後に公開したため、User Agentが送信される前提ならPerplexityはそのサイトにアクセスできないはずだった
  • しかしPerplexityにその投稿について質問すると、推測だけでは分からない細部を含む完璧な要約が返ってきた
  • 著者はChromeのUser Agentスプーフィングしか試していなかったため、設定ミスの可能性もあると考えた
  • だが、Perplexityがリクエストに使っていると主張するUser Agentである PerplexityBot を使ってコードをテストしたところ、予想どおり403レスポンスを受け取り、nginx設定に問題がないことが確認できた
  • 著者がPerplexity AIに、robots.txtがあるにもかかわらずどうやってサイトにアクセスできたのか尋ねると、Perplexity AIはrobots.txtでブロックされたコンテンツをクロールまたはアクセスする機能はなく、制限されたコンテンツにアクセスしたり要約したりするのは倫理的ではないと回答した
  • しかしLewisは、Perplexityが PerplexityBot を含まない次のUser Agent文字列を使っていることを確認した:
    Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3  
    
    広告
  • 著者もアクセスログを有効にした後でPerplexityに質問したところ、Lewisと同様にUser AgentにカスタムUser Agentが含まれていないことを確認した
  • Perplexityはコンテンツをスクレイピングするためにヘッドレスブラウザを使用しており、robots.txtを無視し、正しいUser Agent文字列も送信していない
  • これらのヘッドレスブラウザはPerplexityのIPレンジ内に存在しないようで、IPレンジをブロックすることもできない状況だ
  • 著者は自分の投稿がAI企業に無料で収集されることを望んでいないが、もはや取れる対策がない
  • 著者はPerplexityのDiscordに参加し、自己紹介チャンネルで自己紹介を行い、バグチャンネルにバグを報告した
  • 次の手段としてGDPR請求を検討しているが、確信は持てていない

GN⁺の見解

  • AIボット遮断の重要性: AIボットがサイトのコンテンツを無断利用するのを防ぐには、適切な遮断方法が必要。
  • User Agentの確認: AIボットが正しいUser Agentを使っていない場合、それを確認して遮断することが重要。
  • robots.txtファイルの限界: 多くのAIボットはrobots.txtファイルを無視する可能性があるため、追加のサーバー側遮断手段が必要。
  • プライバシー保護: GDPRのような規制を通じて、AIボットの無断アクセスを防ぐ方法を検討する必要がある。
  • 代替ソリューション: 別のAIボット遮断ソリューションやセキュリティツールを使ってサイトを保護するのも有効な方法。

1件のコメント

 
GN⁺ 2024-06-16
Hacker Newsの意見
  • LLMが自分のデータを学習できないようにすることは可能であるべきであり、Perplexityはそれを簡単にブロックできるようにすべきだ。
  • PerplexityがリアルタイムのWebクエリを通じて自分のWebサイトのデータをユーザーに提供することを禁じるのは、危険な領域に踏み込むことになる。
  • 広告ブロッカー、リーダーモード、スクリーンリーダーなどもPerplexityと同じように動作しており、これを禁止すると多くのツールに影響が及ぶ可能性がある。
  • Webサイト所有者がDRMを使ってWebサイトを特定の方法でのみ表示するよう強制するのは望まない。
  • PerplexityのUser Agentが適用される時点について誤解しているようだ。
  • Webサイト所有者はユーザーがどのブラウザーを使うかを決められず、Perplexityも例外ではない。
  • PerplexityがUser Agentなしで大量にデータを収集するのは問題であり、それはやめるべきだ。
  • AI企業がWebサイトをスクレイピングしてモデルを学習させることと、ユーザーが要求したWebページを取得することは区別されるべきだ。
  • Perplexityが他人のコンテンツを持ち去って利用することの問題を扱った記事へのリンクを提供。
  • Perplexityのクローラーは robots.txt を尊重すべきだが、User Agentはクローラーではないのでそれに従う必要はない。
  • AI企業が自分のWebサイトをスクレイピングしても構わず、彼らが誤ったデータを持っていくよう放っておくつもりだ。
  • Webスクレイピングをしたことがある人なら、User Agentについて嘘をつく理由が分かるはずだ。
  • PerplexityのCEOはGoogleとOpenAIを批判したが、自分たちも robots.txt に従わずUser Agentを隠していたことが明らかになった。
  • AI企業が自分のコンテンツを無料で持ち去るのを防ぐために、見えないプロンプトインジェクションを使うことができる。
  • Perplexityが自発的なWeb標準に従わないことを、嘘だと言うことはできない。