- uBlock OriginでAIが生成したコンテンツファームサイトをブロックするための公開ブラックリストプロジェクト
- 生成AIが作成したWebサイトは、広告や推薦リンクで埋め尽くされ、信頼できない情報を含むことが多い
- ユーザーはlist.txtファイルを購読するか、URLを直接追加してブロックリストを適用できる
- AI生成サイトの特徴と識別基準が具体的に示されており、コントリビューターのPull Requestを通じてリストを拡張できる
- 検索結果の上位に表示されるAIコンテンツ汚染問題を減らすための実用的なツールとして活用できる
プロジェクト概要
- AI uBlock Blacklistは、uBlock Origin拡張機能で利用できるAI生成コンテンツのブロックリストを提供
- 生成AIが作成したWebサイトを閲覧中に見つけるたび、手動でリストに追加
- 自動化ツールは使用しておらず、AI生成かどうかをアルゴリズムで判定するのが難しいためと明記している
プロジェクトの目的
- 生成AIが作成したWebサイトは、有用な情報に乏しく、広告・推薦リンクで収益化を狙う構造になっている
- AIが作成したコンテンツは、検証なしに大量投稿され、危険な情報を含む可能性がある
- 例として、回路の短絡、
rm -rf /コマンドの実行、漂白剤とアンモニアの混合など、危険な助言を示す可能性に言及
- こうした理由から、AI生成コンテンツは信頼できず、ブロックが必要としている
- 作成者はイタリア国籍のため、イタリア語サイトが多数含まれており、他言語サイト追加への貢献も歓迎している
Webサイトの追加方法
- 技術知識のないユーザーは、GitHub Issueを通じて疑わしいサイトを報告できる
- Pull Requestで直接追加する場合、ドメイン単位または特定ブログのパス単位でブロックできる
- 例:
||example.com/@slopUser^$doc または ||example.com^$doc 形式
- SEOやデジタルマーケティングサービスを販売する組織が複数のコンテンツファームを運営している場合、関連サイトをあわせて追加することを推奨
AIコンテンツファームの識別基準
- 不要な導入と結論、「Comprehensive Guide」など誇張されたタイトル、外部リンク・出典の欠如、推薦リンクの多さ
- 短期間で数千件の投稿、誤情報(ハルシネーション)、2022年11月以降の投稿、AI生成画像・ロゴ
- 体裁の粗いテキスト、レンダリングされていないMarkdown記法、主題と無関係な長文、検索上位への反復表示
- 連絡先の欠如、曖昧な紹介ページ、AIを賛美するコンテンツなども主要な特徴として挙げられている
Google Dorksの活用
- AIが生成した文章をそのままコピーして掲載している場合、特定のフレーズ検索でAIページを発見できる
- 例:
"Sure! Here's an article about"(英語), "Certo! Ecco un articolo"(イタリア語)
- こうしたフレーズを含むページは、ドメイン全体をブラックリストに追加
類似プロジェクト
1件のコメント
Hacker News の意見
このアイデアは興味深く、私もリストに貢献しようと思ったが、FAQ の 「Cry about it」 という文言を見てやめた
こういう態度は公開ブラックリストを運営するやり方として不適切だと思う。メンテナが自分は 無謬 だと信じているかのような印象を受ける
解除を依頼したが何の返答もなく、今もまだブロックされたままだ
もう少し現実的なアプローチとして、コンテンツファーム や低品質サイトだけをブロックする新しいリストが登場した
従来の広範な AI ブロックリストより良い代替案に見える
uBlockOrigin-HUGE-AI-Blocklist を参照
Reddit でも 関連議論 が活発だ
私の gist に検索過程と一覧を共有している
時間がたつほど 誤検知の問題 は深刻になる。ドメインが売られたり、サイトが方向転換したり、コンテンツが削除されたりもする
「Cry about it」 のような態度では、ただの 名誉毀損ブラックホール になるだけだ。少なくとも 期限切れや再レビューの仕組み は必要だ
uBlock Origin にはすでに「AI widget」ブロックリストがある。この機能のおかげで今でも Firefox を使っている。Chromium では役に立たない
原則には同意するが、「AI で文章を書くのはスキル不足だ」というような態度は Grammarly ユーザー や非英語話者に不公平だ
いずれにせよ、このプロジェクトは個人の書き手ではなく コンテンツファーム を狙っているので論点が違う
作成者は AI ボットファーム を狙っているようだ
それでも、インターネットに ホワイトリスト ができたわけではまだない
文章が AI によって書かれたかを トロープベースで判定 し、元のプロンプトを復元するツールを使っている
tropes.fyi/aidr
こういう方向性は良い。もっと多様な サイトカテゴリ別ブロック ができるようになってほしい
企業環境では URL レピュテーションサービスを通じてサイトを分類し、アクセスを制御している
個人ユーザーにもこうした クラウドファンディング型インフラ が必要だと思う
たとえばブラウザ、VPN、DNS、メール、認証局など、信頼できるエコシステムのために年間 10 億ドル規模の非営利ファンドがあればいいと思う
botblock.ai のように、Twitter で AI の返信を検出する拡張機能もある
証拠画像
私は広告が多すぎると、そのサイトを閉じてしまうほうだ。広告の構成が妥当ならそのまま使う
アドブロック戦争 にうんざりしている。毎回新しいプラグイン名が出てきて、終わりのない競争のように感じる