8 ポイント 投稿者 GN⁺ 2024-07-25 | 1件のコメント | WhatsAppで共有
  • Googleは現在、Redditの検索結果を表示できる唯一の検索エンジンである
  • Redditが最近 robots.txt ファイルを更新し、Googleを除くすべての検索エンジンのクローリングを遮断した
  • Bing、DuckDuckGo、Mojeek、Qwant など、Googleのインデックスに依存しない代替検索エンジンでは、直近1週間分のReddit検索結果を見ることができない
    • DuckDuckGoはReddit検索で7件のリンクを表示するが、リンク先やその理由に関する情報は提供していない
    • KagiはGoogleの検索インデックスの一部を購入しているため、Reddit検索が可能である
  • これは、Googleの検索独占が他社の競争力を損なっている時期に起きた出来事である
  • RedditとGoogleはこれに関する報道機関のコメント要請に応じていないが、他の検索エンジンの排除は、GoogleにAI製品の学習のためにRedditデータをスクレイピングする権利を与える数百万ドル規模の契約によるものとみられる

Mojeek CEOの反応

  • MojeekのCEO、Colin Hayhurstは、6月初旬にMojeekがRedditのクローリングをブロックされたことを発見し、メールで連絡したものの返信を受け取れなかったと明かした
  • Hayhurstは「無知や愚かさによってブロックされることはあるが、連絡すれば解決できていた。今回は誰からも返信がなく、前例のないことだ」と述べた
  • Redditはクローラーをブロックするだけでなく、Mojeekのクローラーを積極的に遮断しているという

AI企業によるデータスクレイピング遮断の増加傾向

  • 多くのWebサイトが robots.txt ファイルを更新し、AI企業が学習データをスクレイピングするボットを遮断しようとする動きが大きく増えている
  • Googleは最近、検索結果改善のための Googlebot と、Geminiアプリ改善のための Google-Extended という2種類のクローラーを導入した
  • robots.txt ファイルは単なる指針にすぎず、クローラーがこれを無視することもできる

Redditの措置の背景

  • Redditは、大規模言語モデルの学習のためにサイトをスクレイピングするAI企業に不満を抱いており、これを防ぐための公開的かつ積極的な措置を取ってきた
  • 昨年はAPIアクセスの課金を開始し、多くのサードパーティアプリが運営コストに耐えられず終了した
  • 今年初めにはGoogleと6000万ドル規模の契約を結び、GoogleがAI製品の学習のためにRedditコンテンツをライセンスできるようにした

Redditの robots.txt ファイル変更

  • 以前はジョークを含んだ複雑な内容だったが、最近はシンプルかつ厳格になった
  • 現在は User-agent: *, Disallow: / という指示だけが含まれており、これはどのボットもサイトのどの部分もスクレイピングしてはならないことを意味する
  • Redditは「公開インターネットは信じているが、公開コンテンツの悪用は容認できない」との立場を示している

Redditの立場

  • 最近、商業主体がRedditをスクレイピングしながら、利用規約やポリシーには拘束されないと主張する事例が増えている
  • robots.txt の背後に隠れて、Redditコンテンツをどのような用途にも使えると言うのは、さらに深刻な問題である
  • 悪意ある行為者を見つけて先回りして遮断するため最善を尽くすが、Redditorたちの貢献を守るにはさらなる努力が必要である
  • 今後、robots.txt の指針をできる限り明確に更新する予定である。自動化エージェントとしてRedditにアクセスするなら、利用規約とポリシーを順守し、Redditと連携しなければならない

非商用目的のRedditデータアクセスは依然可能

  • Redditは「善意の行為者(研究者、Internet Archiveなど)は、非商用目的で引き続きRedditコンテンツにアクセスできる」と述べている
  • Redditデータへの大規模アクセスについては、信頼できる主体を選別して認めるとしている
  • Redditデータアクセスガイドによれば、「検索」や「Webサイト広告」は「商用利用」と見なされ、許可や料金支払いなしにRedditデータを利用することはできない

GoogleだけがReddit検索を支える現実の含意

  • Google検索の関連性が徐々に低下する中、いまだに良い検索結果を得る方法のひとつは、検索語に「Reddit」を付け加えることである
  • Redditには、ほぼ20年にわたり実際のユーザーたちが助言や推薦を書き残してきたからだ
  • いまやGoogleだけがこうした情報へユーザーを導けるという事実、そしてそれがAI学習データに関する6000万ドル規模の契約の結果であるという事実は、生成AIツールに力を与えるためにインターネット全体を無差別にスクレイピングすることの意図しない結果を示す、また別の事例である

Mojeek CEOの懸念

  • Mojeekは20年間、敬意をもってクローリングしてきた、AIを学習させず追跡もしない伝統的な検索エンジンである
  • RedditのGoogleとの契約は、Webを検索する代替的な方法を提供することを難しくしている
  • これは、徐々にWebを殺し侵食していく広範な傾向の一部である
  • 今回の件は小規模企業の助けにはならない

GN⁺の意見

  • Redditの措置は、コンテンツ制作者の権利を守り商業的悪用を防ぐためのものだが、検索エンジン市場の競争を阻害する結果を招く可能性がある
  • とりわけ、GoogleがAI学習のためにRedditデータを独占する状況は、Googleの市場支配力の乱用への懸念を生む
  • 長期的には、コンテンツ提供者、検索エンジン、AI企業が共存共栄できる規範と政策の整備が急務に見える
  • 一方で、検索品質低下の代替としてReddit検索が注目される状況そのものが皮肉でもある。根本的には、検索エンジンの関連性と多様性を高めるための努力が必要である
  • KagiのようにGoogle検索インデックスを一部活用しつつ独自のアプローチを模索する新興検索エンジンの成長にも注目する価値がある

1件のコメント

 
GN⁺ 2024-07-25
Hacker Newsの意見
  • Redditのrobots.txt変更はAIの文脈では理解できるが、他の検索エンジンに対しては反競争的である
  • これはインターネットにとって危険な前例になり得る
  • 多くのサイトがインデックス化に料金を課す力を持つ可能性がある
  • 特定の検索エンジンを使わなければ、特定サイトの答えを得られない世界になるかもしれない
  • 効率性の観点では、ウェブサイトがデータを検索エンジンに貸し出すほうがよい
  • 現実的には、今ある検索エンジンは2つしかない
  • これはKagiにとって非常に悪い状況だが、趣味で運営されていた非商用ウェブが再発見される可能性もある
  • 米国法では、robots.txtや利用規約の変更はウェブスクレイパーに対して拘束力を持たない
    • データが公開されていてアクセス可能だからである
    • サイト利用時に利用規約への同意バナーを表示しても拘束力はない
    • データへのアクセスを制限し、アカウントを作成しなければアクセスできないようにして初めて拘束力が生じる
  • Redditは1か月前にrobots.txtを変更した
    • 19年間、非常に寛容なrobots.txtを使っていた
    • データの乱用が原因で変更したように見える
    • 検索エンジンがデータを学習に使わないと同意すれば、再び開放される可能性がある
  • AIボットがサイトをスクレイピングしてLLMを訓練する問題は深刻化している
    • 例: thegreatestbooks.org は24時間で120万件のボット/自動化リクエストを受けた
  • RedditはGoogleで唯一機能する検索エンジンになった
  • Redditの行動が反競争的でないとは理解できない
    • Googleの競合他社にも同様の条件で提供すべきである