12 ポイント 投稿者 GN⁺ 2023-08-08 | 3件のコメント | WhatsAppで共有
  • OpenAIが開発したWebクローラー GPTBot の紹介記事
  • 「GPTBot」というユーザーエージェントトークンおよび完全なユーザーエージェント文字列で識別可能
  • GPTBotがクロールしたWebページは、将来のAIモデル改善に使用される可能性がある
  • クローラーは、ペイウォールへのアクセスが必要なソース、個人を特定できる情報(PII)を収集していることが知られている場所、OpenAIポリシーに違反するテキストをフィルタリングする
  • GPTBotにサイトへのアクセスを許可すると、AIモデルの精度、一般的な機能、安全性の向上に役立つ可能性がある
  • サイトの robots.txt にGPTBotを追加してサイトへのアクセスを防止でき、サイト内の特定ディレクトリに対するGPTBotのアクセスを許可することも可能
  • クローラーが使用するIP egress範囲は、OpenAIのWebサイトに別途明記されている

3件のコメント

 
ragingwind 2023-08-08

本当にたくさんの実験が行われそうですね

 
xguru 2023-08-08

ペイウォール付きサイトの運営者は、ChatGPTモデルに自分たちのコンテンツを取り込んでもらうために、Botのアクセスを許可するようになるのでしょうか?
現在は有料アクセスが必要なサイトでも、Googlebotにはキャッシュのために開放していることがよくあります。
もちろん、これを逆手に取ってクロールするロボットもいますが(笑)

 
GN⁺ 2023-08-08
Hacker Newsの意見
  • OpenAIのウェブクローラーであるGPTBotがウェブサイトに与える潜在的な影響について議論されている
  • 一部のユーザーは、GPTBotに別のコンテンツを返す実験を提案し、それがAIモデルの学習にどのような影響を与えるかを確認しようとしている
  • 「429 Too Many Requests」のレスポンスヘッダーを無視するGPTBotへの懸念があり、レート制限のあるAPIを持つ小規模プロジェクトで問題を引き起こす可能性がある
  • ユーザーたちは、自分たちのサイトへのGPTBotのアクセスを許可する利点に疑問を呈しており、元のコンテンツ制作者に直接的な利益やクレジットを与えないまま、彼らのコンテンツがAIモデルの改善に使われる可能性があるとしている
  • 盗用の可能性に対する懸念があり、GPTBotがコンテンツを言い換えて出典を示さないため、資料の元の出典を証明するのが難しくなる
  • こうした懸念からGPTBotのブロックを検討しているユーザーもいるが、その一方で、このような制限を尊重しないボットに競争上の優位を与えることにならないかと疑問視している
  • 議論では、ウェブクロールによる著作権侵害というより広い問題にも触れられており、一部のユーザーは、出典を示さない機械学習モデルは敵対的であり、著作権を侵害する可能性があるものと見なすべきだと主張している