Google、AI契約のおかげでRedditで機能する唯一の検索エンジンに

(404media.co)

8 ポイント投稿者 GN⁺ 2024-07-25 | 1件のコメント | WhatsAppで共有

Googleは現在、Redditの検索結果を表示できる唯一の検索エンジンである
Redditが最近 robots.txt ファイルを更新し、Googleを除くすべての検索エンジンのクローリングを遮断した
Bing、DuckDuckGo、Mojeek、Qwant など、Googleのインデックスに依存しない代替検索エンジンでは、直近1週間分のReddit検索結果を見ることができない
- DuckDuckGoはReddit検索で7件のリンクを表示するが、リンク先やその理由に関する情報は提供していない
- KagiはGoogleの検索インデックスの一部を購入しているため、Reddit検索が可能である
これは、Googleの検索独占が他社の競争力を損なっている時期に起きた出来事である
RedditとGoogleはこれに関する報道機関のコメント要請に応じていないが、他の検索エンジンの排除は、GoogleにAI製品の学習のためにRedditデータをスクレイピングする権利を与える数百万ドル規模の契約によるものとみられる

Mojeek CEOの反応

MojeekのCEO、Colin Hayhurstは、6月初旬にMojeekがRedditのクローリングをブロックされたことを発見し、メールで連絡したものの返信を受け取れなかったと明かした
Hayhurstは「無知や愚かさによってブロックされることはあるが、連絡すれば解決できていた。今回は誰からも返信がなく、前例のないことだ」と述べた
Redditはクローラーをブロックするだけでなく、Mojeekのクローラーを積極的に遮断しているという

AI企業によるデータスクレイピング遮断の増加傾向

多くのWebサイトが robots.txt ファイルを更新し、AI企業が学習データをスクレイピングするボットを遮断しようとする動きが大きく増えている
Googleは最近、検索結果改善のための Googlebot と、Geminiアプリ改善のための Google-Extended という2種類のクローラーを導入した
robots.txt ファイルは単なる指針にすぎず、クローラーがこれを無視することもできる

Redditの措置の背景

Redditは、大規模言語モデルの学習のためにサイトをスクレイピングするAI企業に不満を抱いており、これを防ぐための公開的かつ積極的な措置を取ってきた
昨年はAPIアクセスの課金を開始し、多くのサードパーティアプリが運営コストに耐えられず終了した
今年初めにはGoogleと6000万ドル規模の契約を結び、GoogleがAI製品の学習のためにRedditコンテンツをライセンスできるようにした

Redditの robots.txt ファイル変更

以前はジョークを含んだ複雑な内容だったが、最近はシンプルかつ厳格になった
現在は User-agent: *, Disallow: / という指示だけが含まれており、これはどのボットもサイトのどの部分もスクレイピングしてはならないことを意味する
Redditは「公開インターネットは信じているが、公開コンテンツの悪用は容認できない」との立場を示している

Redditの立場

最近、商業主体がRedditをスクレイピングしながら、利用規約やポリシーには拘束されないと主張する事例が増えている
robots.txt の背後に隠れて、Redditコンテンツをどのような用途にも使えると言うのは、さらに深刻な問題である
悪意ある行為者を見つけて先回りして遮断するため最善を尽くすが、Redditorたちの貢献を守るにはさらなる努力が必要である
今後、robots.txt の指針をできる限り明確に更新する予定である。自動化エージェントとしてRedditにアクセスするなら、利用規約とポリシーを順守し、Redditと連携しなければならない

非商用目的のRedditデータアクセスは依然可能

Redditは「善意の行為者（研究者、Internet Archiveなど）は、非商用目的で引き続きRedditコンテンツにアクセスできる」と述べている
Redditデータへの大規模アクセスについては、信頼できる主体を選別して認めるとしている
Redditデータアクセスガイドによれば、「検索」や「Webサイト広告」は「商用利用」と見なされ、許可や料金支払いなしにRedditデータを利用することはできない

GoogleだけがReddit検索を支える現実の含意

Google検索の関連性が徐々に低下する中、いまだに良い検索結果を得る方法のひとつは、検索語に「Reddit」を付け加えることである
Redditには、ほぼ20年にわたり実際のユーザーたちが助言や推薦を書き残してきたからだ
いまやGoogleだけがこうした情報へユーザーを導けるという事実、そしてそれがAI学習データに関する6000万ドル規模の契約の結果であるという事実は、生成AIツールに力を与えるためにインターネット全体を無差別にスクレイピングすることの意図しない結果を示す、また別の事例である

Mojeek CEOの懸念

Mojeekは20年間、敬意をもってクローリングしてきた、AIを学習させず追跡もしない伝統的な検索エンジンである
RedditのGoogleとの契約は、Webを検索する代替的な方法を提供することを難しくしている
これは、徐々にWebを殺し侵食していく広範な傾向の一部である
今回の件は小規模企業の助けにはならない

GN⁺の意見

Redditの措置は、コンテンツ制作者の権利を守り商業的悪用を防ぐためのものだが、検索エンジン市場の競争を阻害する結果を招く可能性がある
とりわけ、GoogleがAI学習のためにRedditデータを独占する状況は、Googleの市場支配力の乱用への懸念を生む
長期的には、コンテンツ提供者、検索エンジン、AI企業が共存共栄できる規範と政策の整備が急務に見える
一方で、検索品質低下の代替としてReddit検索が注目される状況そのものが皮肉でもある。根本的には、検索エンジンの関連性と多様性を高めるための努力が必要である
KagiのようにGoogle検索インデックスを一部活用しつつ独自のアプローチを模索する新興検索エンジンの成長にも注目する価値がある

1件のコメント

GN⁺ 2024-07-25

Hacker Newsの意見

Redditのrobots.txt変更はAIの文脈では理解できるが、他の検索エンジンに対しては反競争的である
これはインターネットにとって危険な前例になり得る
多くのサイトがインデックス化に料金を課す力を持つ可能性がある
特定の検索エンジンを使わなければ、特定サイトの答えを得られない世界になるかもしれない
効率性の観点では、ウェブサイトがデータを検索エンジンに貸し出すほうがよい
現実的には、今ある検索エンジンは2つしかない
これはKagiにとって非常に悪い状況だが、趣味で運営されていた非商用ウェブが再発見される可能性もある
米国法では、robots.txtや利用規約の変更はウェブスクレイパーに対して拘束力を持たない
- データが公開されていてアクセス可能だからである
- サイト利用時に利用規約への同意バナーを表示しても拘束力はない
- データへのアクセスを制限し、アカウントを作成しなければアクセスできないようにして初めて拘束力が生じる
Redditは1か月前にrobots.txtを変更した
- 19年間、非常に寛容なrobots.txtを使っていた
- データの乱用が原因で変更したように見える
- 検索エンジンがデータを学習に使わないと同意すれば、再び開放される可能性がある
AIボットがサイトをスクレイピングしてLLMを訓練する問題は深刻化している
- 例: thegreatestbooks.org は24時間で120万件のボット/自動化リクエストを受けた
RedditはGoogleで唯一機能する検索エンジンになった
Redditの行動が反競争的でないとは理解できない
- Googleの競合他社にも同様の条件で提供すべきである

Google、AI契約のおかげでRedditで機能する唯一の検索エンジンに

Mojeek CEOの反応

AI企業によるデータスクレイピング遮断の増加傾向

Redditの措置の背景

Redditの robots.txt ファイル変更

Redditの立場

非商用目的のRedditデータアクセスは依然可能

GoogleだけがReddit検索を支える現実の含意

Mojeek CEOの懸念

GN⁺の意見

関連記事

1件のコメント

Hacker Newsの意見