インターネットはAIだらけのゴミ情報で満ちている

(aftermath.site)

6 ポイント投稿者 GN⁺ 2024-01-12 | 1件のコメント | WhatsAppで共有

インターネット検索はかつて「let me Google that for you」が通じるほど簡単だったが、今では AI生成情報 と誤った検索結果のせいで、人に再確認しなければならない場面が増えている
Googleはリンクの代わりにページの スナップショット を検索結果内に表示し、QuoraのAI回答のような「卵は溶ける」といった誤情報まで露出させている
検索品質の低下は、副鼻腔炎の検索が 陰茎の炎症 の結果につながる事例のように、単なるAI回答の問題を超えて検索文脈そのものを揺るがしている
あるTwitterユーザーは、競合サイトのインデックスURLを取り出した後、AIで類似記事を素早く作成してGoogle結果を追い抜く トラフィック強奪 の手法を公開した
Sports IllustratedのAI執筆・偽筆者疑惑は、検索露出と 広告収益 を狙ったコンテンツ生産が読者の信頼をいかに損なうかを示している

Google検索が誤った答えを前面に出す仕組み

以前は、オンラインで質問する人に「自分でGoogleで調べろ」とからかえるほど検索への信頼が高く、「let me Google that for you」という表現もその文脈で使われていた
今ではインターネットに AI生成のゴミ情報 が増え、検索結果だけで情報を確かめるのが難しくなり、人に改めて尋ねなければならない可能性が高まっている
Googleはウェブサイトのリンクだけを見せる代わりに、ページの一部を スナップショット としてドロップダウンに表示し、ユーザーがクリックしなくても結果を読めるようにしている
- この方式は、元の文脈を確認する前に誤情報を先に見せてしまうことがある
- 2023年9月には、QuoraのAI生成回答を取り込んで、Googleが卵は溶けると誤って案内した事例があった
副鼻腔炎を検索した際に 陰茎の炎症 に関する結果が返される事例も再現され、検索結果の関連性そのものが揺らいでいる様子が明らかになっている

AIコンテンツが検索結果を占有する事例

あるTwitterユーザーは、Google検索結果で特定のウェブサイトを追い抜くためのインターネットトラフィックの「heist」を実行したと主張した
- 対象ウェブサイトのサイトインデックスを確認する
- 記事URLを取り出す
- AIでそのURLベースの記事を素早く作成する
- ウェブページのタイトルを直接修正する作業は「任意」と表現した
Sports Illustratedは、Futurismの報道後、複数の記事がAIで書かれ、実在しない人物を筆者として掲げていたとの疑惑を受けた
- Futurismがコメントを求めると、そのコンテンツは削除された
- Sports Illustratedはその後、該当記事は第三者が作成したものでAI生成物ではなく、筆者たちはペンネームを使っていたと述べた
- この説明では、報道機関からの問い合わせ後に記事が削除された理由を説明できていない
- Sports Illustratedが2023年2月のWall Street Journalの記事で、AIでコンテンツと記事アイデアを生成すると公に明らかにしていた事実も残っている
インターネットは人と人が情報をやり取りする保管庫というより、ますます 機械と機械がやり取りする空間 に近づいている
「let me Google that for you」という表現はもはや以前のようには有効ではなく、検索結果で誤情報や完全な捏造物に出会う可能性が高まっている
Sports Illustratedの資金決定権者たちは、読者にきちんと奉仕することよりも、Google検索結果を操作し、そこから 広告収益 を得ることにより関心があるという批判を受けている

1件のコメント

GN⁺ 2024-01-12

Hacker News の意見

LLM の普及で、役に立っていたヒューリスティックを一つ失った。以前はスペルや文法がめちゃくちゃな文章を見て、価値のない投稿を素早くふるい落とせたが、AI が作ったゴミ文章にはまったく通用しない。
言語運用能力は完璧で、大多数の人より優れていることすらあるので、誰でも見た目にはもっともらしい文章を即座に作れる。昔の SEO スパマーのようにコピーライターを雇う必要もなくなったし、curl が偽の AI バグレポートに悩まされた事例が良い例だ: https://news.ycombinator.com/item?id=38845878
まだ始まったばかりで、これからずっと悪くなるだろうから、いつかは玉石混交の玉と石を見分けることが不可能になるかもしれない。
- archive.org にもっと寄付すべきだ。Wayback Machine が 2020 年ごろ以降に出てきたものを切り捨て、インターネットから有用なデータを見つける唯一の方法になるかもしれない。
- 流れは循環する。検索エンジンはリンクされた Web サイトを見つけるにははるかに優れていたが、人々が SEO ゲームを仕掛け、偽記事や相互リンクを大量に作るようになると、誰もが同じ陳腐なことを繰り返し、検索品質は急落した。
  同じ考えを何度も反芻するなら自動化しない理由はなく、結局人々は良い文章がもともとどこから来たのかも忘れてしまう。たとえば LLM が Stack Overflow を置き換え、Stack Overflow が技術文書を置き換える、という具合だ。生産コストがほぼゼロなら誰も品質を気にしなくなり、十分にうんざりすれば、また口コミベースの選別された Web へと行動が反対側に振れる気がする。
- 高校生のころ SEO コピーライティングをしていたが、ChatGPT の出力は当時作っていた文章のレベルとほぼ同じだ。要点は、特定のキーワードを入れ、売りたいものと少し関連する浅い情報記事を書くことだった。
  時間が経つと、AI の知能に妙な渦のような効果が生じるかもしれない。今は ChatGPT に Stack Overflow 風の質問をすると Stack Overflow 風の回答を即座に得られるが、真実性と正確性は賭けに近い。今後、人々がそこにより依存し、Stack Overflow への投稿が減れば、AI が学習する情報の井戸は枯れていき、ときどき当たる粘ついたループだけが残るかもしれない。技術が進むほど問題になる可能性もあり、そのときは技術文書で学習するのかもしれない。
- スペルや文法が悪いというのは、単に非ネイティブの文章かもしれない。
- その通りだ。ClosedAI に台無しにされる前のインターネットが恋しいと思っていたが、今では2020 年のインターネットに戻りたいと思うほどだ。
  LLM 研究はいろいろな形で社会の崩壊を招きそうだ。友人が修士課程にいるが、皆が ChatGPT で回答を書いていて、政治的に慎重な表現の後に最後で要約するやり方があまりにも見え透いている。普通に退学になってほしい。
タイトルには同意するが、インターネットが GPT-4、3、2 以前と大きく変わったとは思わない。インターンやインドのバーチャルアシスタントが一般的なテーマで書いた文章も、たいてい AI 生成物と同じくらいひどく、見分けるのも簡単ではなかった。
最近の検索エンジンが、クエリと Web ページ本文の一致よりも権威性を優先して並べるのも助けになっていない。人々はもはや Web をあまり使わず、アプリの中で暮らしており、スマホで Web ページを閲覧するのは質問を「ググる」ときくらいだ。それですら普通は 1 階層以上深く入らず、アプリ体験に戻っていく。
Web はずっと前からひどく、さらに悪化したが、まもなく重要ではなくなるのかもしれない。読者はゆっくり沸騰する湯の中のカエルで、今になって温度が急に上がり、状況に気づいたというわけだ。
今後「Web」が残るには、新しい匿名化レイヤーへ移るだけでなく、低品質な資料を大量生成しにくくするための頻繁な貨幣のやり取りが必要だと思う。大衆の 90% が金を払いたくないなら、これからも残りかすを食べればいい。スパムの量が大きく増えたという意味で、茹でガエルの比喩を使ったのだ。
- 完全に同意する。SEO スパマーは数年前にすでに公開 Web を台無しにしており、Google は広告収益のために、それを可能にすることに全力を尽くした。
- 重要な変数である量を見落としている。インターンや外注コンテンツもあったが、それでも人が時間をかけて作ったゴミだった。
  今は、そのゴミの量を制限していた要素がなくなった。
- Web のコンテンツはソーシャルメディア、ニュース、「本」になった電子書籍へと流れ込み、操作された情報の無形の渦を作る。
  下水が上水道に入れば、誰も安全ではない。水源から離れた蛇口を使っているからといって安心はできない。
- 低品質コンテンツが常に存在していたことには同意する。ただ、今の問題は生成可能な誤解を招く情報の規模だ。
  量が増えた、あるいは増え続けているので、合法的でまともなものを見つけるのがはるかに難しくなっている。アプリについての洞察は良い。
- 次世代 AI が Web を選別するうえで、どれほど優秀になれるのか気になる。
  すべての発行者が 1 年、2 年、5 年という時間軸で、予測能力、偏り、事実の正確性を AI によって自動評価されるようになったらどうなるのだろう。
こんなことを言うことになるとは思わなかったが、クリアネットがここまで危うい状況では、あらゆる情報が Discord の中にサイロ化されるのも、それほど悪くないように見える。検索エンジンにインデックスされなければ、AI の残りかすの隣に表示されたり、学習データとして使われたりする可能性はほとんどなくなる
インターネットの未来は結局、人間だ。機械はかつて得意だった基本的な作業すらもう信頼できず、複雑な作業をできないほうを選ぶあまり、基本作業の効率性まで捨ててしまった
- あらゆる技術を台無しにする根本的な力学は 過度な商業化だ。今の時代、広告がインターネット、とりわけウェブのインセンティブを完全に壊してしまった
  オンライン小売の時代には取引とビジネスモデルは透明だったが、その裏側にある広告・アテンションエコノミーでは曖昧で歪んでいる。実質的にすべての参加者が、人々の自由時間と注意を収益化し、消費を強いながら楽しく殺していく方向で共謀している
  Google には2010年に入社し、2019年に退社した。2010年の年間売上は約300億ドルで、昨年は3000億ドルだった。創業以来、年20%成長をかなり安定して続けてきたので、2024年にそれを達成するには新たに600億ドルの売上が必要になる。1年以内に 2010年の Google 2社分の売上を見つけなければならないわけで、2010年の Google は作るのに12年かかったのだから、無理がある
- 強く反対する。かなり前からオンラインで移民関連の質問に答えてきたが、人々が数年前のスレッドにコメントしたり、非公開でその内容について尋ねてきたりすることがよくある。つまり 公開コンテンツは時間が経つにつれて多くの人の役に立つ
  一方、非公開の Facebook グループの内容は、長くても数日程度の寿命しかない。有用な知識をできるだけ広い読者と共有することが目的なら、Discord グループは大きな後退だ
- Discord がそのデータを AI 企業に売り始めたら、話は変わるのではないか
- 学習データとして使われることと、この問題に何の関係があるのか分からない。核心は AI の残りかすと正確な情報を見分ける能力だ
- Discord も検索できる: https://www.answeroverflow.com/
抜け道は 真正性であり、署名付きコンテンツだけがそれを提供できる。どんなものも額面通りには受け取れず、生成されたものか、偽造されたものかもしれない
誰でも何でも投稿でき、AI がさらに多くを投稿して人間を圧倒するようになると、誰が何を出し、何を言っているのかを見極めるために、評判と真正性に頼るしかなくなる。信頼のウェブは以前にも試みられたが、アルミホイル帽をかぶった変人たちの道具という隅から抜け出せなかった。今こそ再び試す時かもしれない
- 署名付きコンテンツは、その内容を人間が書いた、あるいは編集したことをまったく保証しない。鍵の窃取リスクがあるため、署名した人が実際に投稿したという保証すらない
  デジタルコンテンツの真正性を検証することは、物理的にも、哲学的にも、技術的にも不可能だ。アナログ世界とデジタル世界の境界では、常にだますことができる
  サプライチェーン認証にブロックチェーンがうまく使われなかった理由も同じだ。523番の品物に有効なハッシュが付いていることは検証できるが、そのハッシュが偽物ではなく実際の523番の品物に適用されたことは証明できない
- 本当の勝負どころは 証明可能な身元システムだと思う。証明（attestation）をサポートする身元システムが押し寄せてくれば、AI が高品質な結果を出そうが、純粋なゴミを大量生産しようが関係なくなる
  後者の場合、Apple、Google、Microsoft（TPM 経由）のようなプラットフォーム所有者にとって大きな勝利になる。彼らはユーザーが「ボットではない」ことを証明できるからだ。5年後、意味のある形でオンラインに参加するには、この3社のいずれかとの関係が必要になっていても驚かない
  AI が「失敗」しても、押し進め続ける理由が生まれる。インターネットユーザーのかなりの部分を、身元と証明のサブスクリプションモデルへ移せるからだ。お金を払わなければ、コンテンツは基本的に生成されたゴミと見なされ、表示されなくなるだろう
  企業側では、かつての SSL やコード署名の仕組みが慈善のように見えるほどの構造が出てくるかもしれない。BIMI のようなものをすべての投稿コンテンツに適用し、1件ごとに課金する方式もあり得る。多く払うほど、より「信頼できる」とされる価格差別も生まれる可能性がある。結局、政府サービスの身元と認証が Google や Apple のような民間企業に移り、実際の身元がその企業の証明と結び付くのではないかと恐れている
  1. https://www.w3.org/TR/webauthn/#sctn-defined-attestation-for...
  2. https://bimigroup.org/
- 純粋に疑問なのだが、これがどう問題を解決するのか。自分でゴミ記事を大量に生成してから署名して投稿することもできる
  Apple や Google のようなところがユーザー証明サービスを提供しても、AI ゴミを自動生成して署名することも可能ではないのか
- 抜け道が真正性だというなら、地球平面論者たちもかなりの数は本当に 真正に信じているように見える
- いちばん狂っているのは、Jaron Lanier がすでに20年前、もしかするとそれより前にこのことを言っていたという点だ
LLM生成コンテンツが加速させただけで、昔からある問題。Googleが広告収益と広告技術の支配力を伸ばす方向へ強く進み、SEOが検索結果全体に乱立するようになって、LMGTFYは死んだ
最近は、無難なクエリだけで偏りのない事実情報を得るのがかなり難しく、だからまずRedditで情報を探そうとする。これも万能薬ではなく、ここ数年はステルスマーケティング的なコンテンツでいっぱいだったが、Redditがまだそれほど人気ではなく操作しにくかった時代の古いスレッドや、小さなコミュニティのスレッドは、たいてい悪くない選択肢になる
- あるThreeJSクラスのドキュメントページを、Googleがどんなキーワードでも見つけてくれないのを見て、結局Kagiに乗り換えた。そのページのURL自体を貼り付けて、ようやく検索結果の一番上に出てきた
  Kagiはクラス名だけで最初の試行で見つけた。有料検索こそが道で、広告インセンティブは検索と衝突する。アドレスバーのデフォルト検索をKagiに設定したが、とても良い
- 常に覚えておくべきなのは、Google検索は検索結果を返しているのではなく、ユーザーのバブルに合わせた精巧なページを生成しているということ。FacebookもTwitterも、アルゴリズムが違うだけで同じ
  Google検索は、同じクエリでも人によって同じ結果を返さない。これはAltaVistaのような歴史的な検索エンジンやElasticSearchとは違い、いまだ検索エンジンと呼ばれていても、検索エンジンとして扱わない十分な理由になる。個人向け広告のための戯言の壁に近い
- スパマーたちが今Redditに投稿するのにAIを使っていないと思っているのか
インターネットがオーガニックな犬の糞でいっぱいだった時代を覚えているくらいには年を取っている
- 人間こそ元祖戯言生成器だ。AIは人間がずっとやってきたことをしているだけ
- Googleを捨ててウェブリングに戻る時だ
- 最近は職人技のこもったオーガニックな戯言の売り手もいるが、高い
- Stack Overflowをスクレイピングして作った回答スパムみたいなもののことか。それは去年あたりではなかったか。今はGoogleはほとんど使わず、ただBing chatに聞いている
- 人間のくだらない投稿は、少なくとも面白くはある
結局、広告は金を稼ぐために存在し、ボットがクレジットカードを持つまでは、その金は人間から出てくる。ある領域で突然「エンゲージメント」やトラフィックが増えたのに、人間の支出に転換されないなら、Googleのような会社も損益で気づくはず
Googleは、この問題が予算上十分に大きく表れた時に対応を始めるだろう。複数の会社で聞こえてくるテック業界のレイオフや、今日の別のHNスレッドに出ていたGoogleの話も、風向きを示す兆候かもしれない
- AIはコンテンツを消費するのではなく生成する。人々がAIの作った広告やコンテンツで偽物や低品質な製品に簡単にだまされるなら、それは引き続きGoogleの売上を押し上げるだろう
  GoogleがSEO操作を嫌う唯一の理由は、サイトが有料プロモーションなしで検索上位の枠を占められるからであって、製品の品質は重要ではない
  人々があまりに多くの悪い製品で痛い目に遭い、以前は信じていたサイトや検索結果をもはや信用しなくなるような信頼の崩壊が起きて初めて問題になる。仕事柄、Instagramでグレーマーケットの薬物広告をよく見るが、FDAの検証を受けておらず、ほとんどは詐欺薬か、Amanita MuscariaやDelta-8 THCに偽装した研究用化学物質だと分かっているので無視している
- Googleは気づけるかもしれないが、人間がお金を使わなくなった対象はGoogleではないので、それを防ぐために金を使うインセンティブはない
  Googleに広告を出している会社は広告の投資収益率の低下を感じるかもしれないが、ほとんどは他に選択肢がないと考えているため、Googleを離れるまでには時間がかかるだろう。これがGoogleの損益に届くまで待つなら、インターネットがどう変わるのか恐ろしい
- 広告技術支出について、あまりにも寛大に考えすぎているように思う。最大手のプレイヤーたちは、すでに自分たちでそういうことをやっている
- 興味深い見方だが、広告主たちがオンライン広告に金を無駄遣いしていると判断するまでは、Googleは打撃を受けないだろう
  すでに枯れていてもよいはずのテーマもあるが、おそらく詐欺がその領域の広告機械を養っているのかもしれない。フィットネスや減量のようなものでは、Googleはほとんど使えない。リフォームの時も、建築資材、とくに塗料は検索不能になったことに気づいた。結局、店に行って尋ねることが、信頼できる情報とおすすめを得る唯一の方法だった
  Googleはまだ多くの領域で機能するが、本当に得意なのは商品広告だ。買いたいものがあればGoogle広告エンジンが見つけてくれる。ただし、自分が何を欲しいのかは正確に分かっている必要がある
- なぜ人間の支出につながらないのか。広告も本物で訪問者も本物なら、コンテンツが本物かどうかは関係ない
  むしろページがありきたりで面白くないほど、人々が広告をクリックする可能性は高くなるかもしれない
「AI」に支配される前から、すでにSEOが要求した人間生成の戯言でいっぱいだったので、ここ数年で実際に失ったものはそれほど多くない。この業界に入って10年を優に超え、ほぼそれと同じくらい長くこのことを言い続けてきた
- それが本当なら、この10年間のすべてのニュースと歴史も人間生成の戯言だという結論になる。間違っているとは言わないが、自分の信じることの結論まで追うべきだ
違いはない。ウェブ検索はすでに15年以上役に立たなかった。今は以前よりごくわずかに悪くなっただけで、以前の状況も、質問すると最初の結果がマーケティングページで埋まっているか、さもなければ「ブログ」形式の薄っぺらいマーケティングごみに行き着く程度だった
職業が「コンテンツ制作」や「収益ブログ」の人に、便器の掃除方法のような質問の答えを任せたくない。本文の例と10年前の結果の違いは、前者は明らかに間違っていて、後者はその分野で働いていない限り反論するのに数日かかりそうな内容だという点だけだ
『Anathem』を読んだことがあるなら、ItaとしてReticulumのゴミを選り分けるのはどうせ私たちの仕事。さあやってみよう、という感じ
https://en.wikipedia.org/wiki/Anathem
https://anathem.fandom.com/wiki/Ita
https://anathem.fandom.com/wiki/Reticulum
- Reticulumの初期には、欠陥があり古びていたり、露骨に誤解を招いたりする情報で散らかってほとんど役に立たなくなり、そのためゴミのフィルタリングが重要になったという『Anathem』の一節を思い出す
  企業はそのゴミを選り分ける製品を売ろうとして、意図的に井戸を汚染し、ランダムな文字ではなく「よくできたゴミ」、つまり検証可能な真実の文が100個と、さりげなく間違った文が1個入った見栄えのよい文書を作った。当初は人を雇う必要があったが、軍が関心を持つようになって「Artificial Inanity」プログラムが発展し、商業領域やボットネットへ広がった、という内容
  LLMを表す言葉としてArtificial Inanityは気に入っている
- ほぼ25年前から、それが未来だと思っていた。#5参照: https://ymlibrary.com/download/Topics/Self/Work-School/Work-...

インターネットはAIだらけのゴミ情報で満ちている

Google検索が誤った答えを前面に出す仕組み

AIコンテンツが検索結果を占有する事例

関連記事

1件のコメント

Hacker News の意見