GPTBot - OpenAIのWebクローラー
(platform.openai.com)- OpenAIが開発したWebクローラー GPTBot の紹介記事
- 「GPTBot」というユーザーエージェントトークンおよび完全なユーザーエージェント文字列で識別可能
- GPTBotがクロールしたWebページは、将来のAIモデル改善に使用される可能性がある
- クローラーは、ペイウォールへのアクセスが必要なソース、個人を特定できる情報(PII)を収集していることが知られている場所、OpenAIポリシーに違反するテキストをフィルタリングする
- GPTBotにサイトへのアクセスを許可すると、AIモデルの精度、一般的な機能、安全性の向上に役立つ可能性がある
- サイトの
robots.txtにGPTBotを追加してサイトへのアクセスを防止でき、サイト内の特定ディレクトリに対するGPTBotのアクセスを許可することも可能 - クローラーが使用するIP egress範囲は、OpenAIのWebサイトに別途明記されている
3件のコメント
本当にたくさんの実験が行われそうですね
ペイウォール付きサイトの運営者は、ChatGPTモデルに自分たちのコンテンツを取り込んでもらうために、Botのアクセスを許可するようになるのでしょうか?
現在は有料アクセスが必要なサイトでも、Googlebotにはキャッシュのために開放していることがよくあります。
もちろん、これを逆手に取ってクロールするロボットもいますが(笑)
Hacker Newsの意見