- AI生成物による汚染を避けるために作られたブラウザ拡張機能で、人間が書いたコンテンツだけを検索できるよう設計されている
- Google検索APIを利用し、2022年11月30日以前に公開された結果のみを返す
- ChromeとFirefoxでダウンロードして利用可能
- ChatGPTやその他の大規模言語モデルの登場以降、インターネット上でAI生成のテキスト・画像・動画が急増している状況を前提としている
- 人間が作成した資料のみにアクセスしたいユーザーに、信頼できる検索環境を提供する
Slop Evader 概要
- Slop EvaderはAI生成物回避用ブラウザ拡張機能で、ChromeとFirefoxで利用できる
- ユーザーは拡張機能をインストールすることで、AIが作ったコンテンツを除外できる
- このツールは**ChatGPT公開以前(2022年11月30日)**に生成されたコンテンツだけを検索結果として表示する
- Google検索APIを活用し、日付基準で結果を制限する
開発背景
- ChatGPTやその他の**大規模言語モデル(LLM)**の公開以降、インターネットにはAIが作ったテキスト・画像・動画が急激に増加している
- Slop Evaderは、このようなAI生成物によるオンライン情報汚染を避けることを目的に作られた
- ユーザーはこの拡張機能を通じて、人間が直接執筆または制作したコンテンツだけを探せる
機能と意義
- 検索結果を2022年11月30日以前の投稿に限定することで、AI生成物の影響を最小化する
- Google検索APIを基盤に動作し、既存の検索環境と似た使用体験を維持する
- AIコンテンツ拡散の中で、人間中心の情報アクセス性を確保するツールとして機能する
1件のコメント
Hacker Newsの意見
ChatGPT公開前、つまり2022年11月30日までのコンテンツだけを検索するツールらしい。
ただし、検索品質の低下はそれよりずっと前から始まっていた気がする。
Googleだけでなく、あらゆる検索エンジンがすでに悪化しており、その後AIがその下降傾向を加速させた。
特に、YouTubeの検索UIをGoogle検索に無理やり移植したのが問題だった。
ユーザーが欲しいのは「他の人が検索したxyz」ではなく正確な結果なのに、広告やクリック誘導要素によってUIの混乱だけが大きくなった。
ここではAI機能を完全にオフにできる。
現在の会員数は約6万1千人で、毎月2千人ずつ増えている(統計リンク)。
2020年ごろにはすでに、スクレイピングされたコンテンツやキーワードスパムで埋められたSEOページが多かった。
単純な言語モデルやマルコフ連鎖で作られた文章も多かった。
「worse results near me」「best worse results」みたいな自動補完ジョークを飛ばしている。
企業的な言い回しで、人々の生活を不便にすることを正当化していると皮肉っている。
主にプログラミング関連の文書を探すために使っているが、今でも結果はかなり正確だ。
自分の検索パターンが単純だからかもしれないが、DDGはまだ十分使える。
誰かが「私たちは、第二次世界大戦後の低バックグラウンド鋼(low-background steel) のような『低バックグラウンド・トークン』を採掘している」と言っていたが、その比喩が頭から離れない。
関連する話は Latent Space にまとめた。
人間が作ったトークンが、AIが作ったものより本当に「高シグナル」なのかは確信が持てない。
Wikipediaの説明によれば、1963年の部分的核実験禁止条約以後、放射線レベルが十分低くなったためだ。
私たちはそれを「巨人の肩の上に立つ」と呼んできた。
こういうプロジェクトを見ると、Cyberpunk 2077の設定を思い出す。
最初のインターネットが危険なAIに汚染され、巨大なファイアウォールを築いて、人間中心の新しいインターネットを作るという話だった。
いつか人間専用インターネットが必要になるのかもしれないと思う。
もちろん現実的には難しく、人間であることを継続的に認証しなければならないmeatspace-firstネットワークのような概念を想像してしまう。
ほとんどのコンテンツはすでにAIの影響を受けていて、単に参考にするレベルとコピペ詐欺とは別物だ。
結局は適応するしかない。
Mastodon、Discord、Matrixのような自律的ネットワークがその方向性の例だと思う。
ChatGPT以前のem-dash(—) 使用数ランキングを示すHNリーダーボードがある。
リンク
こうした機能は拡張機能なしでも可能だ。
Google検索に
before:フィルタを追加すればよい。例: Happiness before:2022
AI生成コンテンツがそこまで大きな問題なのかは分からない。
大半は、もともとのコンテンツファーム型SEOスパムを置き換えただけだ。
昔もそういう文章は読まなかったし、今は文が少し滑らかになっただけだ。
検索衛生をしっかり保てば問題ないと思う。
ただ、Redditのr/chessでは、ChatGPTの回答を自分で書いたかのように投稿する人が多い。
その後の会話もChatGPT経由で続けながら、自分が間違っていると主張してきた。
こういう未来は不安だ。
今では形式だけ違う同じ誤答が何十個もある。
人々は自分が哲学的な突破口を見つけたと勘違いして投稿している。
/r/localllama のような場所もAIスパムが多いし、HNの一部の「Show HN」もLLMが作った偽ポートフォリオだ。
自分もそういう投稿で時間を無駄にしたことがある。
料理レシピサイトのように不要な部分を飛ばすことはできた。
だが今は、ほとんどすべての検索語がAI生成の文章で覆われている。
昔は珍しい検索語で正確な結果が得られたが、今では意味のないページをかき分けなければならない。
今ではその人間の文章がLLMの学習データに吸収され、次世代のAIコンテンツとして再利用される。
望まなくてもそうなってしまう。
「インターネットの低バックグラウンド鋼」という表現は興味深い。
関連Wikipediaリンク
ChatGPTで調査していて経験したこと。
最終的には元の出典である機関の人間が書いた文書を探して解決した。
こういうことは知識の境界領域でよく起きる。
最初の答えが正しいこともあれば、そうでないこともある。
だがチャットボットは、いったん間違った方向に進むとそこから抜け出しにくい。
結果が一致すれば幻覚の可能性は低いと判断することだ。
画像検索には same.energy がよい。
数年間ほぼ放置されているがまだ動いていて、AI画像がほとんどない。
製品自体もかなり優れている。
Googleの検索結果はChatGPT以前からすでに90%がSEOゴミだった。
単にKagiを使ってSEOサイトをブロックすればよい。
フィルターリストや判定基準があるのか聞いてみたい。