Googleの劣化現象
(baldurbjarnason.com)- GoogleとFacebookからのWebメディアのトラフィックを、もはや安定して期待することが難しくなり、質素に運営される独立系メディアも存続基盤が揺らいでいる
- Googleは検索品質の改善のために機械学習ベースのランキングを導入したが、LLM生成スパムは通過し、ブログや小規模サイトは検索結果から押し出されたとの批判を受けている
- 2024年のGoogle Web Creator Summit参加者の1人は、前年の売上が25万ドルだったものの、トラフィックが97%減少し、フードバンクに頼っていると明かした
- Summit参加者らは、Googleが「コンテンツが問題ではなかった」と話したと伝え、Dannyがエンジニアチームと事例をデバッグしたものの、表示されない理由を見つけられなかった
- 検索ランキングシステムがGoogle内部でも理解しにくいブラックボックスになるなか、独占的地位では製品の有用性低下が事業成果に直結しないという批判につながっている
独立系Webメディアのトラフィック崩壊
- “The End Of Independent Publishing And Giant Freakin Robot”はGiant Freakin Robotの閉鎖を告知し、過去2年で数百の独立系出版社が閉鎖し、さらに数千社が同じ道をたどるだろうと述べている
- 複数のテーマを扱う独立系出版社と連絡を取った結果、好調なところはなく、大半が近く廃業を見込んでいる状況だと伝えられている
- Googleに直接問題を伝えたが、返ってきたメッセージはGoogleが気にしていないというもので、「私たちの業界は終わった」という表現まで出ている
- Webメディア企業は今や、GoogleやFacebookからの流入トラフィックを安定して期待することが難しく、残されたトラフィックだけで持ちこたえられるところはごく少ない
検索ランキングがブラックボックスになった過程
- 問題は一部サイトの失敗にとどまらず、Googleが検索結果を修正するためにサイトランキングへ機械学習を用いた流れと結びついている
- What we can learn from the Google creators summit for HCU impacted sitesによると、helpful content systemは良い例と悪い例を学習し、見たことのない例がどちらに近いかを予測する機械学習システムだった
- しかしこの1年、Google検索は多くのLLM生成スパムを通過させ、ブログや小規模サイトをほとんどの検索結果から消えさせたとの批判を受けている
- 一部のサイトは機械学習モデルによって事実上除外され、正確な理由は誰にも分からないままになっている
- I Drank the Kool-Aid at the 2024 Google Web Creator Summitでは、ある参加者が前年売上25万ドルの後、トラフィックが97%減り、現在はフードバンクで食事を得ていると明かしている
- 彼らはGoogleが検索結果に表示したいコンテンツを作っている人々だったため、Summitに招待されたという点で問題がいっそう際立っている
- Twitterでの会話では、Google側が「コンテンツが問題ではなかった」と何度も述べ、Dannyが参加者の事例を持ち帰ってエンジニアチームとデバッグしたが、なぜ表示されないのか突き止められなかったという内容が共有された
- 検索アルゴリズムは、Googleのエンジニアにも把握しにくいブラックボックスになったように見える
製品の劣化が事業成果に結びつかない構造
- GoogleのML専門家たちが、LLMは製品を混乱させ、制御しにくくする可能性があるため避けるべきだと警告していた点も、この問題とつながっている
- 大規模なレイオフで内部システムを深く理解していた人々が去ると、残ったシステムはいっそう容易にブラックボックス化し得る
- 劣化が続く根本的な理由は、それがGoogleの事業成果に直接影響しないためであり、独占企業は製品の有用性が低下しても、周辺で発生する価値を取り込むことができる
- 米国の政治状況を考えると、テクノロジー産業の独占と寡占はさらに強まり、製品の実際の生産性・性能・効果はますます重要でなくなるという見通しにつながる
1件のコメント
Hacker News の意見
根本的には、広告側の人々が検索エンジン側の人々との権力争いに勝った瞬間からだと思う。昔は広告は優れた技術を作る資金を賄う手段であり、ついでに途方もない金持ちになる方法でもあった。
今では、システムから最後の一滴まで価値を搾り取り、数字を永遠に伸ばすための手段でしかなく、Google の上級リーダー層にはビジョンも戦略も完全に欠けているように見える。
Google Docs も2006年には驚くべきものだったが、ほぼ20年が過ぎた今では、多少の使い勝手の改善があっただけで、それ以外は終了したか、そもそもそれほど革新的ではなかったか、他人の成果を力なく追随したケースが多いように見える。
広告が上部のスポンサー付き結果を埋めることはできるが、自然検索結果には影響しない。「広告側が勝った」というのがスポンサー枠が増えたという意味なら、それは枠が増えたという意味にすぎず、自然検索結果の品質を説明できない。
そうでないなら、その優れた技術は広告対象者を引き寄せる餌、つまり広告サービス技術の構成要素にすぎない可能性がある。なぜわざわざ広告人材を雇わず、その技術を販売したりライセンスしたりしないのかも気になる。
Morgan が言っていたように、Danny がエンジニアチームと部屋に座って「なぜこの人たちは出てこないのか」と例を挙げ、彼らがデバッグ手順を踏んだものの原因を見つけられなかった、という話が印象的だ。
一方で、スウェーデンのある人はリビングルームにあるデスクトップ級のマシン1台で、Google が失敗したら頻繁に乗り換えられるほど良い検索エンジンを作った。最近は Kagi を使っているが、優先順位付けやブロックリストがあり、結果が基本的に良いのでその機能は使っていない。
Kagi は独自インデックスを作っているとはいえ、長い間 Google+Bing の結果をラップして再販売する形に近かったにもかかわらず、はるかに良かったという点が興味深い。
可能性は二つのうちどちらかだ。Kagi が上位数十件の結果を読み取って並べ替える非常に賢いシステムを持っているか、よりありそうなのは、API アクセスによって Google の入力側の「クエリ拡張および愚鈍化装置」と出力側のパーソナライズ段階を迂回し、まだ機能している Google 検索の核心部分と直接やり取りしているのかもしれない。
ここでいう「愚鈍化装置」とは、
obscure-js-libを名前が似ているwell-knowm-js-lib-with-kind-of-similar-nameに置き換えたり、Angular のmat-tableを検索したのに、Angular とは無関係なマットが敷かれたテーブルを求めていると判断したりするようなパイプラインのことだ。exactly-this-thing.pyを検索したら、「sorta-related.jsの入力ミスですね。こちらです」と出してくる感じだ。「俺がどもったとでも?」という反応が自然に出る。筆者が具体的にどの問題を指しているのか、よく分からない。検索結果を前提にビジネスモデルを作ったサイトがあるという点なのか、Google が検索アルゴリズムを変え、その優先順位が気に入らないということなのか、それとも別の問題なのか不明確だ。
Google がアルゴリズムの実験を一切すべきではないと期待するのはやや不合理で、本質的にはゼロサムゲームに近い。今日は勝者でも明日は敗者になり得る。
収益配分、流入、広告配置のようなものが心配なら、他社の気まぐれに成功が完全に左右されるビジネスを作るのは、あまり賢明ではない。
検索は大規模言語モデルに徐々に置き換えられつつあり、長年にわたって検索エンジン最適化でゲーム化されてきたため、コンテンツ発見の手段としてはますます悪くなっていると思う。
コンテンツ発見には、Hacker News のような似た関心を持つコミュニティが集団で見つけるモデルや、キュレーションされるモデルのほうが合っている。キュレーターやコミュニティが関心から外れたら新しく探す必要はあるが、不思議なことに同じ枠組みの中でも可能だ。
かつてのウェブサイトはウェブリング、ディレクトリ、複数の小規模な検索エンジンからトラフィックを得ていたが、今では Google またはその資産、そしてより小さい割合の Meta がほぼすべてだ。キュレーターやコミュニティに基づく発見モデルは Google の被害者であって、解決策ではない。
言い換えると、Google がクリック率を 0.2% 上げる、無害に見える実験を 1000 個リリースし、その結果として Reddit と Quora のリンクだけを出したがるシステムになった、という話だ。
Google の非公開 Blind セクションでこの話を何度も見たし、たいていは 2020 年以前の検索責任者がこうした結果を懸念し、より慎重なアプローチを取っていたという会話とセットで出てきた。
元 Google 社員として 2023 年 10 月に退職し、検索チームで働いていたわけではないが、Google の外ではこの説があまり理解されていないように見える。名前は覚えていないが、核心を突いた有名ブログ記事が 2 本ほどあるのが例外だ。
Google が悪い結果を出すクエリの一覧があるのか気になる。検索履歴を数分見てみたが、大半は人名のような単純なクエリで、Google はうまく処理していた。人物検索は、ときどき LinkedIn より Google のほうが良いと感じる。
複雑なクエリもいくつか Kagi と比べてみた。「How much bitcoin does microstrategy own」では Google がここで正しいスニペットを返したが、Kagi は直近数日でどれだけ取得したかに関する記事だけをリンクしていた。
「how to pronounce stratchery」では Google が Stratechery ウェブサイトの正しいスニペットを表示し、Kagi の最初の結果は誤った発音を載せたスパム項目で、2 番目の結果が正しい発音のツイートだった。
Dan Luu の記事([https://danluu.com/seo-spam/](https://danluu.com/seo-spam/))も思い浮かんだが、検索履歴を見てみると、彼が使っているクエリは自分の日常的な検索をまったく代表していなかった。
[0]https://www.forbes.com/sites/digital-assets/2024/11/29/micro...
[1]https://stratechery.com/category/about/#:~:text=UPDATE%3A%20...
[2]https://www.howtopronounce.com/stratechery
製品レビューは検索エンジン最適化のゴミ、つまりブログスパムの「Top 10」リストで埋め尽くされ、旅行関連は自然検索結果が出る前に広告が 1 ページを占める。面倒で試すことすらしなくなり、結局まだ機能するクエリだけが残る。
Google では見つけにくいが他では簡単、という具体例があるのか気になる。
最近の世界の利用統計は、Google 89.33%、Bing 4.15%、YANDEX 2.8%、Yahoo! 1.33%、Baidu 0.83%、DuckDuckGo 0.69% だ。2024 年 10 月時点 https://gs.statcounter.com/search-engine-market-share
Google がそんなに悪いなら、なぜ自分を含めた人々が別の検索エンジンをクリックしないのか疑問だ。Giant Freakin Robot がクリックを得られないのは気の毒だが、ユーザー視点で Google が悪いということとは別問題だ。
全部クリックしてみたが、どれも動いた。Baidu は中国語で表示され、The Sound of Music を検索したら Google 翻訳上では「修道女と7人のいたずらな子どもたち」みたいな中国語結果が出てきて、少し笑ってしまった。
Google は、顧客価値とコンテンツ制作者の価値を優先する姿勢から離れ、社内の不透明な 主要業績評価指標 を優先する方向へ明確に転換した。広告主ではない制作者に対してはなおさらそうだ。
数年前に DuckDuckGo へ、昨年には Kagi へ移ってから、たまに Google に戻るたびに、彼らがどれほど道を見失っているかをはっきり感じる。
支配力を失うまでにはさらに10年はかかるだろうが、兆候は明らかだ。惰性 and 市場での地位だけが、まだトップにいる理由である。一方で若い世代は Web 検索をほとんど使わず、技術に明るい人たちはますます速いペースで離れている。
スタートアップの立場からは期待が持てる。Google はもはや、今になってランチを奪いに来る800ポンドのゴリラではなく、概念的な部品を収穫されるのを待つ 歩く死せる巨人 に近い。
今年 Kagi から
!gで Google に行ったのは数えるほどで、そのたびにすぐ後悔した。数年前に DuckDuckGo を使っていた頃は
!gが本能的で、おそらく半分くらいは Google の結果のほうが良いと感じていた。DuckDuckGo を使い続けるのは理想主義的で、品質は二流のように感じられたが、Kagi はそうではない。月 10ドル は生産性向上で十分に元が取れる。Kagi も Google の検索インデックスを情報源の一つとして使っている以上、Google が技術的に結果やユーザー体験を改善できないわけではない。ただ、組織的に不可能に見えるだけだ。
大規模解雇のよくある結果の一つとして、社内システムが ブラックボックス 化するという警告があった。システムを深く理解していた人たちが皆いなくなるからだ。
知識のある人を直接失うことは実際に起きるが、これらのシステムがブラックボックスになる主な理由ではない。
解雇された知識ある人が1人いるたびに、会社での将来がはるかに不確実になった現実に適応するため、20人ほどが残る。その適応の仕方は人によって違うが、「よし、ドキュメントを改善して知識を共有し、自分がもっと解雇されやすくなるようにしよう!」と言う人は文字どおり誰もいない。
1か月後、会社から連絡があり契約仕事を提案されたが断った。その後1年間、社員たちが直接連絡して助けを求めてきたが、自分が手助けした内容はすべてすでにドキュメント化されていた。
会社における適切な 知識移転 の解決策はないと思う。だから人が場当たり的に解雇されるのを見るのは興味深いし、社員1人よりはるかに多くのものを失うことになる。
知識サイロは雇用の安定を保証しない。むしろ昇進する力、組織間で協業する力、適応力、別の仕事を引き受ける力、委任する力を制限し、協業とプロジェクトの成功率を下げ、組織内で見える成果も低下させる。組織だけでなく、サイロの中にいるエンジニア個人にとっても悪い理由はさらに多く、関連研究も複数ある。
Yandex、つまりロシアの Google は、実質的に 2006年の Google に近い。Google の弁護士たちや、サンフランシスコの昇進資料を気にする人たちが見せたがるものではなく、自分が望むものを見せてくれるという意味だ。
ロシア国内に関する内容は検閲されるかもしれないが、自分の利用範囲からは大きく外れた領域だ。
新しい検索エンジンを妨げているものが、規模とサーバー以外に何かあるのか分からない。私たちが望んでいるのが2006年に存在していた普通の昔ながらの検索にすぎないなら、再現可能に見える。
DuckDuckGo のような他のエンジンもあるが、実際には Bing に近いことが分かった。だとすれば、Google がそれほどひどいなら、なぜ Bing が支配できないのかも疑問だ。すごく良いわけではないが、そこまで悪くもない。
さらに読んでみると、Kagi がこれをやっているようだ。
Google が内部からどのように破壊されたのかを示す冷静な記事だ。
https://www.wheresyoured.at/the-men-who-killed-google/
実際には自分が予想していたより遅く起きたが、今まで影響が続くほど明確な出来事だったように見える。
Giant Freakin' Robot は 集約サイト だった。その「コンテンツ」は、他の Web ページへのリンクと、それについての冗長な文章だけだ。Google は今では集約サイトを認識し、順位を下げているようだ。
Google 自体が集約サイトなのだから、他の集約サイトにトラフィックを渡す理由はない。Yelp のようなものも下げてくれればいいのに。
インターネットを長く使っている人たちは、インターネット検索をどんな用途に使っているのか気になる。私の場合は次の3つのどれかです。
1つ目は、情報がどのWebサイトにあるか分かっていて、そこへ直接行くこと。たとえば Wikipedia、Github、Google Maps です。
2つ目は、実際の人間の意見やフィードバックが必要なので、たいてい Reddit ドメインだけを対象に Google 検索すること。
3つ目は、検証しやすいよく知られた情報が必要な場合で、これは大規模言語モデルが非常に得意な問題です。
これが私の「サーフィン」活動の95%以上なので、主要な検索エンジンがある日落ちても、ほとんど気づかないと思います。