Perplexity AIはUser Agentについて嘘をついている
(rknight.me)- 著者は昨日、サーバーでAIボットをブロックする内容の記事を書き、今日はMacStoriesのために同じ作業を実施した
- 設定完了後、FedericoはPerplexityというサイトでMacStoriesの特定の投稿を引用できた
- 著者は自分のサイトで次の変更を適用した:
- 3月30日:
PerplexityBotなどのボットをrobots.txtでブロックし始めた - 6月14日: nginxでサーバー側ブロックを追加した。一致する項目にはすべて403 Forbiddenレスポンスを返す
- 3月30日:
- 著者は、すべてのAI企業がrobots.txtを無視すると仮定し、3月からリクエストしてきたが効果はなかっただろうと見ている
- 著者はAIボットブロックに関する記事をブロック措置適用後に公開したため、User Agentが送信される前提ならPerplexityはそのサイトにアクセスできないはずだった
- しかしPerplexityにその投稿について質問すると、推測だけでは分からない細部を含む完璧な要約が返ってきた
- 著者はChromeのUser Agentスプーフィングしか試していなかったため、設定ミスの可能性もあると考えた
- だが、Perplexityがリクエストに使っていると主張するUser Agentである
PerplexityBotを使ってコードをテストしたところ、予想どおり403レスポンスを受け取り、nginx設定に問題がないことが確認できた - 著者がPerplexity AIに、robots.txtがあるにもかかわらずどうやってサイトにアクセスできたのか尋ねると、Perplexity AIはrobots.txtでブロックされたコンテンツをクロールまたはアクセスする機能はなく、制限されたコンテンツにアクセスしたり要約したりするのは倫理的ではないと回答した
- しかしLewisは、Perplexityが
PerplexityBotを含まない次のUser Agent文字列を使っていることを確認した:Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3 - 著者もアクセスログを有効にした後でPerplexityに質問したところ、Lewisと同様にUser AgentにカスタムUser Agentが含まれていないことを確認した
- Perplexityはコンテンツをスクレイピングするためにヘッドレスブラウザを使用しており、robots.txtを無視し、正しいUser Agent文字列も送信していない
- これらのヘッドレスブラウザはPerplexityのIPレンジ内に存在しないようで、IPレンジをブロックすることもできない状況だ
- 著者は自分の投稿がAI企業に無料で収集されることを望んでいないが、もはや取れる対策がない
- 著者はPerplexityのDiscordに参加し、自己紹介チャンネルで自己紹介を行い、バグチャンネルにバグを報告した
- 次の手段としてGDPR請求を検討しているが、確信は持てていない
GN⁺の見解
- AIボット遮断の重要性: AIボットがサイトのコンテンツを無断利用するのを防ぐには、適切な遮断方法が必要。
- User Agentの確認: AIボットが正しいUser Agentを使っていない場合、それを確認して遮断することが重要。
- robots.txtファイルの限界: 多くのAIボットはrobots.txtファイルを無視する可能性があるため、追加のサーバー側遮断手段が必要。
- プライバシー保護: GDPRのような規制を通じて、AIボットの無断アクセスを防ぐ方法を検討する必要がある。
- 代替ソリューション: 別のAIボット遮断ソリューションやセキュリティツールを使ってサイトを保護するのも有効な方法。
1件のコメント
Hacker Newsの意見