OpenAI内部の連絡先を持つ人なら誰でも、スパイダー問題の解決を要請

(mailman.nanog.org)

2 ポイント投稿者 GN⁺ 2024-04-12 | 1件のコメント | WhatsAppで共有

OpenAI GPTBotのWebサイトクロール問題

著者のWebサイト web.sp.am では、OpenAIのGPTBotが訪問して過剰にページをクロールする問題が発生している
- 1日に約300万ページをリクエストし、そのうち180万件は robots.txt へのリクエストだった
- 著者のサイトはContent Farmの形態で、68億5900万のWebサイトがそれぞれ1つのページを持つ構造になっている
- すべてのページはほぼ同一に見え、同じIP、同じワイルドカードSSL証明書を使用しているため、クローラーが状況を把握するのは難しくない状態である
1〜2か月前にはAmazonのクローラーも同様の問題を起こしたが、連絡を取ってクロールを停止させることができた
著者はOpenAIにも連絡できる人がいるか尋ねている
著者は、自分のWebサイトのデータがGPT-5の学習に使われているようだと冗談を言っている

GN⁺の見解

クローラーが robots.txt を正しく解釈できず過剰なリクエストを送ることは、悪意がなくても相手の立場ではサービスに被害を与えうる深刻な問題である。OpenAIも早急にクローラーロジックを改善する必要がありそうだ
特にContent Farmのように多数のドメインを運用する環境では、それぞれのサイトを個別にクロールしないよう、IPベースのフィルタリングなどの対策を検討する必要がある
クロールボットの動作を監視し、異常兆候を検知して迅速に対応できるプロセスとシステムが必要に見える
クロール対象サイトの管理者と緊密にコミュニケーションを取りながら、被害を最小限に抑えられるようにすべきである。無条件にデータ収集だけへ注力するのではなく、共存共栄の観点が重要だ

1件のコメント

GN⁺ 2024-04-12

Hacker News のコメント

GPT-2/3/J が https://reddit.com/r/counting に触れていた件を思い出します。Reddit ユーザーが数字を1つずつ増やして無限に数えていく場所ですが、SolidGoldMagikarp のようなユーザー名がインターネット上であまりにも頻出する文字列に見えたのか、トークン化の過程で独立したトークンのように扱われていました
https://www.alignmentforum.org/posts/8viQEp8KBg2QSW4Yc/solid...
https://www.lesswrong.com/posts/LAxAmooK4uDfWmbep/anomalous-...
語彙は無限ではなく、GPT-3 の語彙も 50,257 個のトークンしかなかったとされています。Reddit のこのニッチな趣味のせいで生じた追加の電力コストと、その枠を実際のテキストでよりよく出る部分文字列に割り当てて平均入力トークン数を減らした場合との差が、測定できるものだったのかも気になります
OP サイトの副題である IECC ChurnWare 0.3 が GPT-5 のトークンになったら面白そうです
- ハルシネーションの原因が大規模言語モデルそのものの本質というより、元のコンテンツにどれだけ含まれているのか気になります。インターネットフォーラムで自分が答えを知らない質問が出ても、わざわざ「分かりません」とは書かないでしょうから
  実際、1対1の会話でない場では「分かりません」という回答はたいてい有用ではありません。グループ内で知らなければ、沈黙がすでにその事実を示しているからです
- トークン化の際にはユーザー名がトークンになりましたが、実際にモデルを学習する前にそうしたテキストを学習データから削除してしまったため、モデルはそのトークンを含むテキストで学習されませんでした。そのため、どんな意味とも結び付いていないグリッチトークンが生まれました
- Computerphile にもグリッチトークンに関する議論があります
  https://www.youtube.com/watch?v=WO2X3oZEJOA
- 最近もっとも一般的な語彙サイズは 32k です
あのコンテンツファームが何のためのものなのかの方が気になります。無意味に見えますが、何か奇妙な経済的インセンティブがありそうです。アフィリエイトリンクはありますが、それでどれほど稼げるのかと思います
- これはハニーポットです。作者の https://en.wikipedia.org/wiki/John_R._Levine は、新しく大規模なスクレイピング作業が始まると必ずこの小さなファームに当たり、ログに残るようにするため維持しているのです
  彼は何十年も前からさまざまな活動をしてきた有名なアンチスパム人物です。NANOG のメッセージにランディングページへのリンクを自然に紛れ込ませるのも、ボットに餌を食いつかせるための方法です
- iecc.com の John Levine という名前は、Web 1.0 時代の Invincible Electric Calculator Company として記憶しています。彼は Usenet の comp.compilers ニュースグループの運営者で、IBM PC RT 向けの最初の C コンパイラを書きました
  https://compilers.iecc.com/
- ボット向けのハニーポットに近いように見えます。目的はかなり似ています
- Linkers & Loaders は彼が書いた本で間違いありません。他の本は確認していません
  https://www.iecc.com/linker/ のページでは以前、本の草稿を複数の形式で公開していましたが、https://news.ycombinator.com/item?id=18424233 に投稿されたとき、私がオフライン読書用にファイルをまとめたところ、その後「慢性的な違法コピーのため、もはや提供していない」という文言に変わりました
  メールで問題ないか尋ねましたが、ファイルを違法コピーしたという不親切な返事を受けたのでリンクを下げ、先方は文言を変えました。私が本の著者ではなく、彼らが著者なのでそうすることはできます。ただ、ページにやめてほしいと書いておくよう提案したのですが、彼らはもっと急進的な方法を選びました
- 単に楽しみで作ったもので、今まさに役目をとてもよく果たしています。すべてに経済的目的や100個のトラッカー、広告、企業スポンサーが付いている必要はありません
OpenAI のサーバーファームに本物のクモが大量発生して、他人のラックへ這い込んでいるという話であってほしかったのは自分だけかと思いました。そんなはずはないと分かっていましたが、期待していました
- 大きなキーワードの塊がクモの画像を生成したという話であってほしかったです
robots.txt がきちんと設定されていません。実際にブロックする部分をコメントアウトしてあります
Amazonbot と GPTBot に対する Disallow: / はどちらもコメントアウトされており、現在適用されるのは User-agent: * に対する /archive のブロックだけです
- その時点から今までの間に内容が変わっています
robots.txt に従うなら、OpenAI にはボットブロックとデータ収集の問題が同時にあります: https://x.com/AznWeng/status/1777688628308681000
上位10万サイトのうち 11% がすでに OpenAI のクローラーをブロックしており、これは競合である Google、FB、Anthropic、Perplexity をすべて合計した数より多いです
- これは学習だけでなく、エンドユーザーにとっても問題です。長い文章について質問したり要約を頼んだりしたのに、自分では読めないと言われ、結局テキストをチャット欄にコピー＆ペーストしなければならなかったことが何度もあります
  robots.txt が拘束力のない性質のものであり、別の文脈では公開データを吸い上げることにかなりためらいがなさそうに見える点を考えると、こうしたものがユーザー体験の障害になるままにしているのは意外です
そのままやらせておけばいいのでは、と思う。インターネットを望むなら、これが本物のインターネットだ。彼が数百万ページを持っていくことをあまり気にしていないように見えるなら、そのままやらせておけばいい
- そのWebファームの他の正規ユーザーにパフォーマンスへの影響が出る
- 一部のスクレイパーは robots.txt を尊重する。OpenAI はそうではない。SP はその事実を世の中に知らせているだけだ
- CTOですらデータがどこから来ているのか分からないと言っている
- まさにそれが核心だ。彼が不満を言っているのは、OpenAI が robots.txt を尊重していない点だ
ネットワークセキュリティの世界では、こうしたものをタールピットと呼ぶ。データを非常にゆっくり送ったり、無限再帰を引き起こしたりすることで、攻撃、スキャン、その他の自動化を遅延させられる
結果として攻撃者の時間とエネルギーを浪費させ、こちら側の防御を強化する時間を稼げる可能性がある
- メールの内容を見ると、単なるハニーポットという印象を受ける。コンテンツが返される際の遅延も見えない
  タールピットはスキャンやスクレイピングを遅くし、相手のリソースを意図的に浪費させるよう設計されたものなので異なる。手法はいろいろあるが、ほとんどはレスポンスやレスポンス速度を指数関数的に制限する
2011年にも、picolisp プロジェクトがその場でページを生成するマルコフ連鎖のような「ticker」を公開したとき、似たようなことがあった
https://picolisp.com/wiki/?ticker
かなり良い形のハニーポットだ
結局 OpenAI のような企業は、ほぼすべてAI生成コンテンツでモデルを学習することになり、Q&Aの観点ではそうしたコンテンツはかなり頻繁に少しずつ間違っているため、それで学習したAIの応答品質も急速に悪化するだろう
今はインターネット上のコンテンツの大半を人間が書いているが、5年後にはそうではないかもしれない。AI分野が早急に解決すべき大きな問題の一つだと思う。昔から言うように、ゴミを入れればゴミが出てくる
- Webテキスト学習の終着点は、常にウロボロスだった。広告技術のインセンティブが、わずかな収益を得るために低品質なコンテンツを大量生産するよう仕向けるからだ
  この状況全体の皮肉はきつい
- 取り込める原生林のようなコンテンツはもうなくなるだろうが、人間が求めるコンテンツはそれでも最も人気があり、宣伝され、キュレーションされ、編集されるものになるだろう。有機的なコンテンツで学習することが不可能になっても、良いコンテンツを得ることは可能だ
- すでに解決済みの問題だ。Microsoft が Phi をどう学習したかを見ればいい。既存モデルで教科書ベースの合成データを生成したので、Common Crawl のようなものよりはるかに高品質で「事実」に基づく新しいデータセットを作れた
  ウロボロスというよりは、ブートストラッピングの問題に近いように見える
- 今後はマルチモーダルになり、分散センシング網のフィードで学習し推論するようになるだろう。ラジオ、光学、音響、加速度計、振動、携帯電話の中にあるもの、その他多くのセンサーが含まれる
  テキストだけを扱うトランスフォーマーの時代は、すでに過ぎ去ったと思う
- OpenAI とその仲間たちが、結局ほぼすべてAI生成コンテンツで学習するようになると、なぜ考えるのか分からない。インターネット上でAI生成コンテンツが実コンテンツより多くなる可能性は高く、すでにそうなっているかもしれないが、AI企業がそれに気づいて学習方法を調整しないと考える理由はない
OpenAI は robots.txt を読むことは読むが、それでもインデックスすると思う。ただし、インデックスしてはいけないコンテンツだったという印だけは残しておく気がする
- そして、そうしたコンテンツには学習で2倍の重みを付けそうだ

OpenAI内部の連絡先を持つ人なら誰でも、スパイダー問題の解決を要請

OpenAI GPTBotのWebサイトクロール問題

GN⁺の見解

関連記事

1件のコメント

Hacker News のコメント