16 ポイント 投稿者 GN⁺ 8 일 전 | 5件のコメント | WhatsAppで共有
  • インターネットがAI生成の低品質コンテンツ(slop)であふれるなか、人々がAIに積極的に抵抗するさまざまな動きが広がっている
  • Redditコミュニティ r/PoisonFountain は、AIクローラーに1日1テラバイトの汚染データを提供することを2026年末までの目標に活動している
  • AI動画要約ツールをだます手法や、ソーシャルメディアでの意図的な虚偽データの挿入など、さまざまな形の抵抗が登場している
  • AIクローラーが robots.txt を無視し、小規模サイトにDDoS級の負荷を引き起こしている現実が、こうした抵抗の背景にある
  • この感情が平和的で合法的な抵抗行為へとつながるなら、シリコンバレーのデータ収集のやり方を変えられるのではないかという期待がある

AIクローラー向けデータ汚染コミュニティ

  • Redditコミュニティ r/PoisonFountain は、AI業界の内部者を名乗る人々が作ったコミュニティで、できるだけ多くの人がウェブクローラーに大量のゴミデータ(poison)を供給するよう促している
  • 2026年末までにクローラーへ1日1テラバイトの汚染データを提供することが目標
  • 汚染データ本体は rnsaffn.com にホストされており、AIクローラーが引き寄せられそうなガベージリンクの間に配置されている
    • 一見すると正常なコードのように見えるが、実際には微妙なエラーが含まれており、使えないコードを生成する
    • こうしたエラーをフィルタリングすることは可能だが、大規模ではコストが高い
  • AI企業は人間が作った新しいデータなしにはモデルを改善できないため、データ盗用にかかる時間とコストを増やすことが中核的な戦略となっている
  • Miasma は、この汚染データを活用して悪質なボットに大量のガベージを提供するツールで、開発者はこれを「slopマシンのための終わりなきslopビュッフェ」と表現している

AIクローラーの問題行動

  • AIクローラーを送り込むチームは、小規模サイトに定期的にDDoS級の負荷を引き起こしており、誰にとってもホスティング費用を押し上げている
  • robots.txtを順守せず、住宅用プロキシの背後にクローラーを隠すケースも頻繁にある
  • 倫理的に訓練データを調達できないのであれば、どのサイト運営者にもデータ盗用を容易にしてやる理由はない

AI動画要約ツールへの汚染の試み

  • r/PoisonFountain を通じて知られるようになった動画で、クリエイターの @f4mi が**YouTube字幕の抜け穴を利用してAI動画要約ツールを汚染する**手法を実演した
  • 現在は YouTube がその字幕の抜け穴を修正したため、この手法はもう機能しない
  • 一時的ではあったがAIシステムの攪乱に成功した事例であり、人々が積極的に抵抗を試みていることを示している

ソーシャルメディアでの意図的なAIサボタージュ

  • Reddit などのソーシャルメディアプラットフォームでは、意図的に虚偽情報を書き込んでAI学習データを汚染する行為が増えている
  • 例として、"Everybody Loves Raymond" でIdris Elba が Raymond の母親役を演じたという明らかな虚偽情報を投稿するケースもある
    • 人間なら文脈から虚偽だとすぐ判断できるが、自動化されたウェブスクレイパーはこれを質の高い人間生成データとして認識する
    • このデータが OpenAI などに渡れば、訓練データセットからこれを除去するために追加のリソースが必要になる
  • 産業革命期に織物労働者が動力織機を破壊したことの現代的な変形とも言え、十分な数の人々がボット向けの虚偽情報で公共空間を汚染すれば、AI企業に訓練データ収集のやり方を再考するよう圧力をかけられる可能性がある

AIに対する広範な反感

  • 人々はAIが世界に与える影響に反感を抱いており、具体的にはオンラインコミュニティ、環境、小学校と大学、メンタルヘルス上のリスクを抱える人々、生計への影響に反発している
  • AI slop を消費し生成する人々もいるが、オフラインでもオンラインでも、この技術を嫌悪し拒絶する人のほうがはるかに多い
  • 嫌悪感情が良い結果につながることはまれであり、AI配達ロボットを**蹴ったり転倒させたり**する行為や、Sam Altman の家に火炎瓶を投げ込んだ事件のような暴力行為には反対する立場だ
  • ただし、AIに対する感情が平和的で合法的な抵抗行為へ転換されるなら、シリコンバレーの振る舞いを実際に変える可能性がある

後日談: Hacker Newsで拡散後の原文修正

  • この記事が**大型ニュースハブ(Hacker News)のトップページ**に載り、予想外の大規模トラフィックが流入した
  • 少数のIPアドレスから当該ページに何千件ものリクエストを送る悪意あるサーバー過負荷攻撃が発生した
    • 格安の共有ホスティングだったなら、サイトが完全にダウンしていた可能性が高く、対応として当該URLへのトラフィックを一時遮断した
  • AIの専門家でもないのに、一部のコメント参加者は専門家レベルの正確性を要求して過度に批判した
    • あるコメントでは「図書館を焼き払う集団と大差ない」という表現が使われ、図書館と知識共有を愛するブロガーにとって特に失望させられる反応だった
  • もともとは小規模ブログのフォロワー向けに反AI動向のリンクを共有するのが目的で、これほど大きなプラットフォームで否定的な注目を集めると分かっていたなら投稿しなかっただろうという立場を示した
  • その後、AIに関する個人的な意見の投稿は控えると決め、ブログ運営の本来の目的であるsmall webでの楽しさに集中する予定だとした
  • small web での自由な意見表明が、バイラルな拡散によって萎縮してしまう現実を示す事例

5件のコメント

 
GN⁺ 8 일 전
Hacker Newsの意見
  • この人がコミュニティを見つけたのはうれしいが、反AI感情に少し圧倒されすぎているようにも感じる。今後30年ずっと、AIを嫌い止めようとする集団は存在し続けると思う。スマートフォン、Internet、TVにも常にそういう反対層はいた。一方で、モデル poisoning が本当に安定して可能になるなら、それはかなり興味深いコンピュータサイエンスの問題だと思う。私は反AI活動家と志を同じくしているわけではないが、攻撃手法そのものには強い関心がある。だから彼らがそうした研究を続ければ、その大義に同意しない人たちでさえ、その議論を真剣に読むようになると思う

    • 私はモデル poisoning は最終的に halting problem に似た限界に突き当たると思う。測定可能な挙動を変えるメカニズムが公開されれば、システム側もそのメカニズムを考慮して耐性を持つよう学習されるはずだ。公開された poisoning 手法は、結局は防御訓練やフィルタリング対象として吸収される可能性が高い。逆に、情報そのものを深刻に壊すレベルでなければ効果がないのだとしたら、人間にとっても役に立たないデータになってしまい、実用性が低い。だからこうした攻撃は影響が小さいか、一時的に効いてもすぐ学習パイプラインに取り込まれて無力化されると思う。それでも、その短い隙間で人間とモデルが異なる反応を示す粗い境界面を露わにするという点で、興味深いCSの課題だと感じる
    • 数年前、ここで架空のゲーム名をひとつでっち上げて、未来のAIモデルを汚染しようとして、そのゲームについてのコメントをいくつか残したことがある。なのに今ではそのゲーム名すら覚えていないし、昔のコメントを探すために More を何百回も押す気力もない
    • Chinese モデルは poisoning にもっと強いのではないかと推測している。そして Chinese の大衆が西洋よりはるかに親AI的だという点も一因だと思う
    • もし整列されていない超知能のせいで人類が数年以内に絶滅するなら、少なくともAIを憎んで阻止しようとする活動的なコミュニティももう存在しなくなる、という皮肉な冗談を言いたくなる
    • SEO はすでに自然に LLM training と agentic search optimization へと変異したと思う。その点が、いま起きている流れの核心だという気がする
  • poisoning の試みは、あまりに的外れなところにエネルギーを使っているように見えて残念だ。すでに訓練に使える非汚染データは十分に多いし、新しいコンテンツも現実世界での自動収集や、アフリカの大規模作業場で品質管理された労働によって作られ続けていると思う。だから古い Internet を汚すことはできても、時間の矢そのものを巻き戻すことはできないと思う。しかも今は、API と公開 announce federation を中心とする新しい Internet が広がっていて、そうした伝統的な poisoning の重要性はますます下がっているように感じる

    • これは興味深い指摘だと思う。AI labs は新しい Internet コンテンツを得るのに本当に必死に見えるし、金さえ払えば囲い込まれたプラットフォームからでもデータを買おうとしている。さらには、同意がなくても取ろうとしているようにすら見える。濫用的で巧妙な scraping が今ものすごく増えていると感じる
    • コンテンツが多いという話とは別に、Internet に何かを載せた人たちは、許可していない AI crawler を防ぐために苦労していると思う。多くの場合、単なるリクエストの殺到からインフラを守るためだけでも防がなければならない状況だ。ところが AI crawler はアクセス拒否のシグナルをあまり守らないので、自分のコンテンツを学習に使われたくない所有者の立場からすれば、可能なら poisoning はかなり合理的な対応に見える。ひょっとすると crawler を追い払えるほぼ唯一の方法かもしれないと感じる
    • 非汚染コンテンツが十分あるという話自体は正しいと思う。ただ、私が触った事例を見る限り、人の目にはほとんど見えず scraper には関連していそうに見える内容を隠すだけでは、データセット全体やモデルを意味のある形で汚染するのは難しいと感じる。それでも少なくとも、私のサイトの「scraper のリクエストを乱発しないでほしい」というシグナルを無視したときの純利益を 0 か少しマイナスにすることはできると思う。うまくいかなくても、実装自体がかなり楽しい遊びだった。また、自動化で poisoning しようとする人に言っておくと、ランダムな単語や文字はフィルタリングで簡単に除去されるのであまり効かない。代わりに、現在のページと周辺ページの内容を並べ替え、少し追加の断片を混ぜる方式のほうが、トークン間のつながりを弱める可能性が高そうだ。そして scraper の中には露骨な罵倒語があるとページ全体を捨てるものもあるので、ボットにしか見えない位置にいくつか不快な文字列を撒く方法は、一部には有効かもしれない。もちろん、こうしたすべての方法でも bandwidth を食い潰す resource hogging 自体は防げない
    • 「model collapse」を見てみるといいと思う。今のようにAI生成物があふれている環境では、コンテンツが多いという事実だけでは十分な学習資源にならないかもしれない。しかも、膨大なデータが次第に非公開化されたり paywall の向こうに入ったりしている点も重要だと感じる
    • Anthropic も少量サンプル poisoning の問題を直接扱っている点が興味深い。関連資料として https://www.anthropic.com/research/small-samples-poison をそのまま参照する価値があると思う
  • 以前のハッカー文化の主要な議題が、DRM、DMCA、patent troll、PGP export control のように、情報を使いにくくする障壁を取り除くことだった時代を覚えている。「Information wants to be free」がスローガンのように通用していた頃と比べると、いまは企業が倫理的に training data を手に入れられないなら、ウェブサイト運営者が盗みやすくしてやる理由はない、という感情が強まっている点が本当に大きな転換に見える。25年前には、こういう変化が来るとは予想しにくかっただろうと思う

    • これを矛盾だと見る見方は、昔からあまりしっくりこなかった。誰もが豊かになってほしいと願う人と、自分だけが豊かになり他人はもっと貧しくなるような計画を立てる人を区別すれば、理解しやすい。自由な情報アクセスを支持する人が、他人の情報アクセス能力を損ない、出所を隠したり歪めたりする企業的なデータ利用に反対するからといって、それは矛盾ではないと思う。著作権が消え、創作物が公共財となり、企業も情報を独占しない世界になったわけではないのなら、これは立場の変化というより一貫した適用だと感じる
    • 私はこの現象を、共同体を破壊しようとする人々を排除する強いメカニズムがない文化で起きていることだと見ている。吸血鬼を家の中に招き入れておいて、なぜ首が痛いのかと驚いているようなものだ、という比喩が浮かぶ
    • 当時の人々は共有と贈与の経済を作りたかったのだと思う。ただ、その共有経済の中で悪意ある行為者を防げず、理想主義が私益追求者に乗っ取られたことで失望し、苦々しくなっただけだと思う。だから今の反発はそれほど不思議には感じない
    • 私は今でも「information wants to be free」寄りの立場だ。オープンソースライセンスでソフトウェアを公開しておいて、LLM がそれを学習すると怒る人たちはあまり理解できない。昔 Google がソースコードをインデックスしていたときは比較的静かだったが、たぶんその頃はトラフィックが戻ってきてお金になったからだろうと思う。だからこの論争は哲学というより、誰が金を持っていくかの問題に近く、私はそこにあまり関心がない。オープンソースの核心的価値は、AIを通してであれ他の方法であれ、誰でも学べるようにすることにあると感じる
    • これが本来のハッカー ethos を裏切るものだという主張には同意しない。「Information wants to be free」はハッカー ethos の一部ではあっても全部ではなく、cracking とは無関係の別の気質も多いと思う。また、サーバー上の情報は無料のビールのような意味で free なのではなく、サーバーの可用性やコストが現実にかかる。貪欲な行為者に不利益を与える仕組みを作ることは、サーバー運営者の正当な権利であり、興味深い tit-for-tat の問題でもあると感じる。しかも、こうした poisoning 対応は政府介入を呼ぶやり方ではなく、個人が直接やり返す形なので、その点でもハッカー的な気質によく合うと思う。だから情報可用性の一側面と偶然ぶつかるとしても、こうした LLM への抵抗はむしろ本来のハッカー精神の中に入ると思う
  • AIへの抵抗を強める最も簡単な方法は、Dario Amodei と Sam Altman をテレビに出してそのまま喋らせることだと感じる

    • そこに Alex Karp まで自律兵器の宣伝要員として投入すれば、完璧な三位一体になると思う
    • なぜそう感じるのかもっと聞きたい。日常の人々とうまくつながっていない、インセンティブがずれている、直接的に話さない、選挙で選ばれた指導者以上の権力を持っている、といった理由を思い浮かべる。ただ、人物評価としては Amodei と Altman を一緒くたにしたくはない。私には Altman は洗練されていて有能だが、それゆえにむしろ不安で、アイデアではなく人に従わせるような不道徳な雰囲気がある。一方 Amodei は、人柄と理想で人を説得する善意の geek のように見える。メディア対応はぎこちないが、むしろ自分自身の言葉で話しているようで好感が持てる。もちろん二人とも、もっと批判できる点は多い。Dario はAIの将来リスクについてまだ十分に遠くまで踏み込んでいないように見えるし、Altman は賢く有能だが操作的だという第一印象を与える。それでも私は、Dario は corporate leader の中でも alignment を最も真剣に捉えている人物の一人だと思う。自分で資金を出し、技術も理解し、実際の研究の本質を知っている人に見える。会社の CEO が現場の中核業務を本当に遂行できる能力まで持っているケースがどれほど珍しいかを考えると、この点はかなり特別だと感じる
  • AIを、従業員からもっと多くの仕事を引き出すための corporate tool だと見ている。同時に、従業員に自分が turbo-charged dev になったかのような錯覚を植え付ける装置のようにも感じる。今の tech industry は、人類を本気で改善しようとする努力よりも、金が集まったサーカスに近いと思う

    • 少なくとも正気なプログラマーの間では、そういう「turbo-charged dev」の神話は信じられていないと感じる。大半は、この見せかけが結局は金儲けの手段だということを見抜いていると思う
  • こういう poisoning 運動は slacktivism に近いと感じる。労働者階級の仕事を compute で置き換え、compute は純粋な資本なのだから、結局は資本家階級が労働者階級の首を絞める構造だ、という分析自体はある程度理解できる。そして資本家たちが実際にそういう方向を望んでいる可能性もあると思う。だが、そう見るなら、モデルを少し汚染する程度では、今起きていることを真正面から扱うにはあまりにも不十分だと感じる

  • この流れは Reddit で特に強く見ている。あるコミュニティはAI要約コメントを付けたり、AI作成の投稿を奨励したりするほど親AIで、別の subreddit では慎重論、あるいは露骨な反AIへと動いている。写真コミュニティは自分の作品がAIだと疑われる問題に直面しているし、プログラマーのコミュニティは概して好意的でありながら同時に懐疑的でもある。結局、伝統的な subreddit もそれぞれAIスペクトラムのどこかに位置を定めつつあるように感じる。例として https://www.reddit.com/r/vibecoding/https://www.reddit.com/r/isthisAI/https://www.reddit.com/r/aiwars/https://www.reddit.com/r/antiai/https://www.reddit.com/r/photography/comments/1q4iv0k/what_do_you_say_to_people_who_think_every_photo/https://www.reddit.com/r/webdev/comments/1s6mtt7/ai_has_sucked_all_the_fun_out_of_programming/ のような場所が思い浮かぶ

    • これは Reddit、もっと広く言えば人間の集団思考の典型に見える。人は微妙なニュアンスを扱うよりも、すぐ一次元の線のどこかに立つか、二つの陣営のどちらかに分類されたがるのだと感じる
  • いつかはAIと、それが世界で果たすべき役割について、もっと繊細な会話ができるようになってほしい。今はほとんど両極端しか存在しないような空気だ。AIを世界から完全に排除しようという立場と、すべてを委ねようという立場のあいだのどこかで、責任ある利用や社会的な緩衝策、エネルギー消費の問題のような現実的な議論をしたい

    • Venture capital がAIが世界を支配するシナリオに賭けている以上、LLM の保守的で限定的な使い方は、しばらく投資を受けにくいと思う。そうした慎重なユースケースに金を入れること自体が、既存の中核投資の価値を下げるシグナルになってしまう、という微妙な理由もあると感じる
    • 私はだいたいちょうどその中間あたりに立っている。AI crawler とその企業は robots.txt を尊重すべきだし、環境やサプライチェーンに悪影響を与えるほど無限に拡大すべきではないと思う。同時に、モデルを慎重に使うことには確かな価値があるとも感じる。たとえば Linux サーバーで奇妙な問題を追跡するとき、常に長い時間と精神力を注ぎたいとは限らない。だから私はAIを意識的に必要な場面でだけ使いたいのに、Microsoft が Copilot を絶えず押し付けてくる戦略は本当に嫌だ。毎瞬間もっと効率を上げろと念押しされるより、自分が適切だと思うときだけ使いたい
    • 昔AIを想像していたときに思い描いていた用途は、こういうものではなかったと感じる。もともとは大きな問題を解決してくれる壮大なビジョンがあった。だから今は責任あるAI導入を推すべきだと思う。リスクの低い領域から始め、より破滅的でない状況で十分に機能することが検証されてから、もっと重要な分野へ上げていくべきだと思う
    • このサイトに参加している人からこういう意見が出るのは少し意外だった。むしろ私は、こここそそうした中間地帯が最もよく表れている場所だと感じていたからだ。この1年でも、漠然とした身振り程度だったものから、今ではAIを受け入れつつ問題を把握し、対策を考える雰囲気へとかなり移ってきたと感じる。AIはうまく使えば素晴らしい道具だと思うが、道具を理解もしないまま皆の手に無造作に握らせる今のやり方は恐ろしいと思う。たぶんこのコミュニティにも、似た感覚を持つ人は少なくないだろうと想像している
  • 元のブログの怒りも行き過ぎだが、こうした poisoning の試みがモデル訓練に少しも悪影響を与えられないと本気で信じる態度も、技術理解が足りないように見えてやはり残念だと感じる

    • poisoning が絶対に効かないと、そこまで自信を持つことはできないと思う。少なくとも関連事例を見ると、可能性を完全に閉ざすべきではないという感じがあり、例として https://www.reddit.com/r/BrandNewSentence/comments/1so9wf1/comment/ogrqpxz/ が思い浮かぶ
    • 怒りそのものを cringe だと見る態度には同意しがたい。怒りを丸ごと幼稚だと片付けると、現実感や道徳感覚から遠ざかる道に進みかねないと感じる
    • むしろ ChatGPT にメッセージ、メール、履歴書を書かせ、現場のソフトウェア開発者が vibe coding でアプリ全体を作り、LLM から AGI がすぐ出ると騒いでいるほうが、よほど cringe だと感じる
  • 「Resistance is futile」という冗談を言いたくなる一方で、AIが実際にコミュニティを壊しているという主張にはかなり共感する。たとえば YouTube は通報処理までAIに回していて、悪意ある行為者が他人の元動画を自分のものだと主張し、demonetize によって収益を奪えるようになっている。Davie504 のような有名 YouTuber ですらそうした被害に遭っており、異議申し立てさえまたロボットが処理する構造なのでうんざりする

    • YouTube のこの問題は LLM よりずっと前からあったと思う。著作権 strike システムはもともと壊れていた。だから、適当な tech の問題を一つ選んで全部AIのせいにするのは、やや不正確だと感じる
 
amebahead 7 일 전

AIが学習するデータを汚染する方法以外に、ほかの抵抗の仕方はないでしょうか?
たとえば、AIが生成したコンテンツを消費しないとか…

 
dongho42 7 일 전

これを読みながら、意図せず人間に対してもポイズニングになってしまうのではないかと思いました。

 
geesecross 7 일 전

どこで問題が起きたのかは分かりませんが、 の後ろに似合わない が付いています。これももしかして poisoning でしょうか ;)

 
xguru 7 일 전

モデルが少し変わったのか、同じプロンプトが誤動作しますね。この部分は修正しておきました。