2 ポイント 投稿者 GN⁺ 2024-12-01 | 1件のコメント | WhatsAppで共有
  • GoogleとFacebookからのWebメディアのトラフィックを、もはや安定して期待することが難しくなり、質素に運営される独立系メディアも存続基盤が揺らいでいる
  • Googleは検索品質の改善のために機械学習ベースのランキングを導入したが、LLM生成スパムは通過し、ブログや小規模サイトは検索結果から押し出されたとの批判を受けている
  • 2024年のGoogle Web Creator Summit参加者の1人は、前年の売上が25万ドルだったものの、トラフィックが97%減少し、フードバンクに頼っていると明かした
  • Summit参加者らは、Googleが「コンテンツが問題ではなかった」と話したと伝え、Dannyがエンジニアチームと事例をデバッグしたものの、表示されない理由を見つけられなかった
  • 検索ランキングシステムがGoogle内部でも理解しにくいブラックボックスになるなか、独占的地位では製品の有用性低下が事業成果に直結しないという批判につながっている

独立系Webメディアのトラフィック崩壊

  • “The End Of Independent Publishing And Giant Freakin Robot”はGiant Freakin Robotの閉鎖を告知し、過去2年で数百の独立系出版社が閉鎖し、さらに数千社が同じ道をたどるだろうと述べている
  • 複数のテーマを扱う独立系出版社と連絡を取った結果、好調なところはなく、大半が近く廃業を見込んでいる状況だと伝えられている
  • Googleに直接問題を伝えたが、返ってきたメッセージはGoogleが気にしていないというもので、「私たちの業界は終わった」という表現まで出ている
  • Webメディア企業は今や、GoogleやFacebookからの流入トラフィックを安定して期待することが難しく、残されたトラフィックだけで持ちこたえられるところはごく少ない

検索ランキングがブラックボックスになった過程

  • 問題は一部サイトの失敗にとどまらず、Googleが検索結果を修正するためにサイトランキングへ機械学習を用いた流れと結びついている
  • What we can learn from the Google creators summit for HCU impacted sitesによると、helpful content systemは良い例と悪い例を学習し、見たことのない例がどちらに近いかを予測する機械学習システムだった
  • しかしこの1年、Google検索は多くのLLM生成スパムを通過させ、ブログや小規模サイトをほとんどの検索結果から消えさせたとの批判を受けている
  • 一部のサイトは機械学習モデルによって事実上除外され、正確な理由は誰にも分からないままになっている
  • I Drank the Kool-Aid at the 2024 Google Web Creator Summitでは、ある参加者が前年売上25万ドルの後、トラフィックが97%減り、現在はフードバンクで食事を得ていると明かしている
  • 彼らはGoogleが検索結果に表示したいコンテンツを作っている人々だったため、Summitに招待されたという点で問題がいっそう際立っている
  • Twitterでの会話では、Google側が「コンテンツが問題ではなかった」と何度も述べ、Dannyが参加者の事例を持ち帰ってエンジニアチームとデバッグしたが、なぜ表示されないのか突き止められなかったという内容が共有された
  • 検索アルゴリズムは、Googleのエンジニアにも把握しにくいブラックボックスになったように見える

製品の劣化が事業成果に結びつかない構造

  • GoogleのML専門家たちが、LLMは製品を混乱させ、制御しにくくする可能性があるため避けるべきだと警告していた点も、この問題とつながっている
  • 大規模なレイオフで内部システムを深く理解していた人々が去ると、残ったシステムはいっそう容易にブラックボックス化し得る
  • 劣化が続く根本的な理由は、それがGoogleの事業成果に直接影響しないためであり、独占企業は製品の有用性が低下しても、周辺で発生する価値を取り込むことができる
  • 米国の政治状況を考えると、テクノロジー産業の独占と寡占はさらに強まり、製品の実際の生産性・性能・効果はますます重要でなくなるという見通しにつながる

1件のコメント

 
GN⁺ 2024-12-01
Hacker News の意見
  • 根本的には、広告側の人々が検索エンジン側の人々との権力争いに勝った瞬間からだと思う。昔は広告は優れた技術を作る資金を賄う手段であり、ついでに途方もない金持ちになる方法でもあった。
    今では、システムから最後の一滴まで価値を搾り取り、数字を永遠に伸ばすための手段でしかなく、Google の上級リーダー層にはビジョンも戦略も完全に欠けているように見える。

    • Google がこの15年間で本当に印象的なことを一つでも成し遂げたかというと、思い浮かべるのは難しい。検索は2009年ごろに頂点に達し、Maps は遅くなり、情報量も減り、以前のように場所の中にあるあらゆるものを見せるのではなく、人気があるものや金を払ったものだけを見せる方向になった。
      Google Docs も2006年には驚くべきものだったが、ほぼ20年が過ぎた今では、多少の使い勝手の改善があっただけで、それ以外は終了したか、そもそもそれほど革新的ではなかったか、他人の成果を力なく追随したケースが多いように見える。
    • ペーパークリップ最大化装置が、地球システム内の利用可能なあらゆる物質をペーパークリップに変える作業で着実かつ心強い進展を報告し、そのニュースを受けて $PCLIP 株が20%上昇した、という風刺のように見える。
    • 最も重要なのは、コンテンツは爆発的に増え続けている一方で、人間の総注意力は増えていないという点だ。では広告技術はどうやって毎年より多くの売上を作り、より多くの広告を売っているのか。簡単な答えは詐欺だと思う。
    • 広告側が勝ったという話が、Google 検索結果の悪化をどう説明するのか分からない。広告は検索品質が高く、人々が競合へ移らない場合にだけ閲覧される。
      広告が上部のスポンサー付き結果を埋めることはできるが、自然検索結果には影響しない。「広告側が勝った」というのがスポンサー枠が増えたという意味なら、それは枠が増えたという意味にすぎず、自然検索結果の品質を説明できない。
    • 以前の広告が優れた技術を作る資金を賄う手段だったのなら、今の広告とは何なのかを考える必要がある。資金を受ける「技術」が実はコンピュータネットワークを通じた広告配信だとすれば、それが優れた技術なのかは疑問だ。
      そうでないなら、その優れた技術は広告対象者を引き寄せる餌、つまり広告サービス技術の構成要素にすぎない可能性がある。なぜわざわざ広告人材を雇わず、その技術を販売したりライセンスしたりしないのかも気になる。
  • Morgan が言っていたように、Danny がエンジニアチームと部屋に座って「なぜこの人たちは出てこないのか」と例を挙げ、彼らがデバッグ手順を踏んだものの原因を見つけられなかった、という話が印象的だ。
    一方で、スウェーデンのある人はリビングルームにあるデスクトップ級のマシン1台で、Google が失敗したら頻繁に乗り換えられるほど良い検索エンジンを作った。最近は Kagi を使っているが、優先順位付けやブロックリストがあり、結果が基本的に良いのでその機能は使っていない。
    Kagi は独自インデックスを作っているとはいえ、長い間 Google+Bing の結果をラップして再販売する形に近かったにもかかわらず、はるかに良かったという点が興味深い。
    可能性は二つのうちどちらかだ。Kagi が上位数十件の結果を読み取って並べ替える非常に賢いシステムを持っているか、よりありそうなのは、API アクセスによって Google の入力側の「クエリ拡張および愚鈍化装置」と出力側のパーソナライズ段階を迂回し、まだ機能している Google 検索の核心部分と直接やり取りしているのかもしれない。
    ここでいう「愚鈍化装置」とは、obscure-js-lib を名前が似ている well-knowm-js-lib-with-kind-of-similar-name に置き換えたり、Angular の mat-table を検索したのに、Angular とは無関係なマットが敷かれたテーブルを求めていると判断したりするようなパイプラインのことだ。

    • その愚鈍化装置は、SmartOS や Illumos のような検索も Solaris に変えてしまい、関係のない結果ばかりを出す。
    • 小さな検索エンジンを運営すると、組み込みの利点が生まれることがある。検索エンジン最適化の専門家たちが、その結果を操作しようとしないからだ。
    • Google で exactly-this-thing.py を検索したら、「sorta-related.js の入力ミスですね。こちらです」と出してくる感じだ。「俺がどもったとでも?」という反応が自然に出る。
    • Kagi FAQ によれば、「検索結果には世界の主要な検索結果提供者への匿名化された API 呼び出しも含まれる」とあるので、完全に独自インデックスだけに依存しているわけではなさそうだ。
    • そのスウェーデンの検索エンジンが何なのか気になる。
  • 筆者が具体的にどの問題を指しているのか、よく分からない。検索結果を前提にビジネスモデルを作ったサイトがあるという点なのか、Google が検索アルゴリズムを変え、その優先順位が気に入らないということなのか、それとも別の問題なのか不明確だ。
    Google がアルゴリズムの実験を一切すべきではないと期待するのはやや不合理で、本質的にはゼロサムゲームに近い。今日は勝者でも明日は敗者になり得る。
    収益配分、流入、広告配置のようなものが心配なら、他社の気まぐれに成功が完全に左右されるビジネスを作るのは、あまり賢明ではない。
    検索は大規模言語モデルに徐々に置き換えられつつあり、長年にわたって検索エンジン最適化でゲーム化されてきたため、コンテンツ発見の手段としてはますます悪くなっていると思う。
    コンテンツ発見には、Hacker News のような似た関心を持つコミュニティが集団で見つけるモデルや、キュレーションされるモデルのほうが合っている。キュレーターやコミュニティが関心から外れたら新しく探す必要はあるが、不思議なことに同じ枠組みの中でも可能だ。

    • その「他社」が独占企業なら、どんな選択肢があるのか。Google の台頭は、実質的に他のトラフィック源をすべて殺してしまった。
      かつてのウェブサイトはウェブリング、ディレクトリ、複数の小規模な検索エンジンからトラフィックを得ていたが、今では Google またはその資産、そしてより小さい割合の Meta がほぼすべてだ。キュレーターやコミュニティに基づく発見モデルは Google の被害者であって、解決策ではない。
    • 検索に機械学習ベースの最適化レイヤーが追加され続けた結果、ほとんどデバッグ不可能になった、という説だ。
      言い換えると、Google がクリック率を 0.2% 上げる、無害に見える実験を 1000 個リリースし、その結果として Reddit と Quora のリンクだけを出したがるシステムになった、という話だ。
      Google の非公開 Blind セクションでこの話を何度も見たし、たいていは 2020 年以前の検索責任者がこうした結果を懸念し、より慎重なアプローチを取っていたという会話とセットで出てきた。
      元 Google 社員として 2023 年 10 月に退職し、検索チームで働いていたわけではないが、Google の外ではこの説があまり理解されていないように見える。名前は覚えていないが、核心を突いた有名ブログ記事が 2 本ほどあるのが例外だ。
    • 似た関心を持つコミュニティやキュレーションでコンテンツを見つけるモデルが、どうやって規模を拡大できるのか気になる。Google は 1 日に85億件の検索を処理しているが、「Ask HN: X に関する最高の資料はどこですか」を 85 億件処理するのはスケールしなさそうだ。
    • そういう意味では、キュレーションされた Android アプリストアがあるといい。いまだに広告なしのアプリでフィルタできないという点が、多くを物語っている。
    • 政治やニュースに少しでも関係する subreddit がすべてあれほど偏っている理由は、まさにコミュニティベースのキュレーションにある。もちろん代案は分からないし、分かっていたら HN をスクロールする代わりに、その理想的なサイトを作っていただろう。
  • Google が悪い結果を出すクエリの一覧があるのか気になる。検索履歴を数分見てみたが、大半は人名のような単純なクエリで、Google はうまく処理していた。人物検索は、ときどき LinkedIn より Google のほうが良いと感じる。
    複雑なクエリもいくつか Kagi と比べてみた。「How much bitcoin does microstrategy own」では Google がここで正しいスニペットを返したが、Kagi は直近数日でどれだけ取得したかに関する記事だけをリンクしていた。
    「how to pronounce stratchery」では Google が Stratechery ウェブサイトの正しいスニペットを表示し、Kagi の最初の結果は誤った発音を載せたスパム項目で、2 番目の結果が正しい発音のツイートだった。
    Dan Luu の記事([https://danluu.com/seo-spam/](https://danluu.com/seo-spam/))も思い浮かんだが、検索履歴を見てみると、彼が使っているクエリは自分の日常的な検索をまったく代表していなかった。
    [0]https://www.forbes.com/sites/digital-assets/2024/11/29/micro...
    [1]https://stratechery.com/category/about/#:~:text=UPDATE%3A%20...
    [2]https://www.howtopronounce.com/stratechery

    • すでに無意識のうちに、Google がひどいカテゴリを避けるように検索行動を変えているのだ。
      製品レビューは検索エンジン最適化のゴミ、つまりブログスパムの「Top 10」リストで埋め尽くされ、旅行関連は自然検索結果が出る前に広告が 1 ページを占める。面倒で試すことすらしなくなり、結局まだ機能するクエリだけが残る。
    • 自分も同じ疑問だった。Google はひどく壊れているという不満をよく見るが、どの検索エンジンも苦手なものを除けば、概ねうまく機能しているように思う。
      Google では見つけにくいが他では簡単、という具体例があるのか気になる。
      最近の世界の利用統計は、Google 89.33%、Bing 4.15%、YANDEX 2.8%、Yahoo! 1.33%、Baidu 0.83%、DuckDuckGo 0.69% だ。2024 年 10 月時点 https://gs.statcounter.com/search-engine-market-share
      Google がそんなに悪いなら、なぜ自分を含めた人々が別の検索エンジンをクリックしないのか疑問だ。Giant Freakin Robot がクリックを得られないのは気の毒だが、ユーザー視点で Google が悪いということとは別問題だ。
      全部クリックしてみたが、どれも動いた。Baidu は中国語で表示され、The Sound of Music を検索したら Google 翻訳上では「修道女と7人のいたずらな子どもたち」みたいな中国語結果が出てきて、少し笑ってしまった。
  • Google は、顧客価値とコンテンツ制作者の価値を優先する姿勢から離れ、社内の不透明な 主要業績評価指標 を優先する方向へ明確に転換した。広告主ではない制作者に対してはなおさらそうだ。
    数年前に DuckDuckGo へ、昨年には Kagi へ移ってから、たまに Google に戻るたびに、彼らがどれほど道を見失っているかをはっきり感じる。
    支配力を失うまでにはさらに10年はかかるだろうが、兆候は明らかだ。惰性 and 市場での地位だけが、まだトップにいる理由である。一方で若い世代は Web 検索をほとんど使わず、技術に明るい人たちはますます速いペースで離れている。
    スタートアップの立場からは期待が持てる。Google はもはや、今になってランチを奪いに来る800ポンドのゴリラではなく、概念的な部品を収穫されるのを待つ 歩く死せる巨人 に近い。

    • Kagi に乗り換え、この2年間の Google 検索の苛立たしい変化まで経験した今となっては、Google に戻ることは想像しにくい。
      今年 Kagi から !g で Google に行ったのは数えるほどで、そのたびにすぐ後悔した。
      数年前に DuckDuckGo を使っていた頃は !g が本能的で、おそらく半分くらいは Google の結果のほうが良いと感じていた。DuckDuckGo を使い続けるのは理想主義的で、品質は二流のように感じられたが、Kagi はそうではない。月 10ドル は生産性向上で十分に元が取れる。
      Kagi も Google の検索インデックスを情報源の一つとして使っている以上、Google が技術的に結果やユーザー体験を改善できないわけではない。ただ、組織的に不可能に見えるだけだ。
    • 若い世代が Web 検索をほとんど使わないなら、代わりに何をしているのか気になる。自分が少し時代遅れなのかもしれない。
    • Google の顧客は広告主だ。顧客とはお金を払う人であり、消費者はただの商品にすぎない。
  • 大規模解雇のよくある結果の一つとして、社内システムが ブラックボックス 化するという警告があった。システムを深く理解していた人たちが皆いなくなるからだ。
    知識のある人を直接失うことは実際に起きるが、これらのシステムがブラックボックスになる主な理由ではない。
    解雇された知識ある人が1人いるたびに、会社での将来がはるかに不確実になった現実に適応するため、20人ほどが残る。その適応の仕方は人によって違うが、「よし、ドキュメントを改善して知識を共有し、自分がもっと解雇されやすくなるようにしよう!」と言う人は文字どおり誰もいない。

    • 退職時にドキュメント化を始めることにし、2週間前の通知を出す前にしっかりしたドキュメントを作っておいた。残りの期間で磨き込み、かなり良いドキュメントになった。
      1か月後、会社から連絡があり契約仕事を提案されたが断った。その後1年間、社員たちが直接連絡して助けを求めてきたが、自分が手助けした内容はすべてすでにドキュメント化されていた。
      会社における適切な 知識移転 の解決策はないと思う。だから人が場当たり的に解雇されるのを見るのは興味深いし、社員1人よりはるかに多くのものを失うことになる。
    • 人々が仕事を守るという誤った考えから 知識サイロ を作るのは確かだが、意図的にそうしようとする人たちのために、その結果を指摘しておきたい。
      知識サイロは雇用の安定を保証しない。むしろ昇進する力、組織間で協業する力、適応力、別の仕事を引き受ける力、委任する力を制限し、協業とプロジェクトの成功率を下げ、組織内で見える成果も低下させる。組織だけでなく、サイロの中にいるエンジニア個人にとっても悪い理由はさらに多く、関連研究も複数ある。
    • 逆の効果も見たことがある。大きな組織の中の人たちが、オープンソースプロジェクトを組織変更や優先順位の変化により耐えられるようにしようと努力するケースがあった。それでも解雇に副作用があるのは確かだ。
  • Yandex、つまりロシアの Google は、実質的に 2006年の Google に近い。Google の弁護士たちや、サンフランシスコの昇進資料を気にする人たちが見せたがるものではなく、自分が望むものを見せてくれるという意味だ。
    ロシア国内に関する内容は検閲されるかもしれないが、自分の利用範囲からは大きく外れた領域だ。

    • Yandex は英語で検索するときだけ良い。英語市場には関心がないからだ。彼らはロシア語圏とテュルク語圏の市場にだけ関心があるようで、ベトナムもそうだったかは記憶があいまいだ。
    • Yandex も同じ軌跡をたどっている。Yandex の逆画像検索は、以前の Google のようにその画像がある Web サイトを探してくれたが、今では同じように「類似画像」のゴミになってしまった。
    • 2006年の Google の大半はオープンソースか、公開論文で知られているものではないのか? それなら米国でも Google を再現し、基本的な PageRank に戻れるはずだと思う。
      新しい検索エンジンを妨げているものが、規模とサーバー以外に何かあるのか分からない。私たちが望んでいるのが2006年に存在していた普通の昔ながらの検索にすぎないなら、再現可能に見える。
      DuckDuckGo のような他のエンジンもあるが、実際には Bing に近いことが分かった。だとすれば、Google がそれほどひどいなら、なぜ Bing が支配できないのかも疑問だ。すごく良いわけではないが、そこまで悪くもない。
      さらに読んでみると、Kagi がこれをやっているようだ。
    • 完全に同意する。Google がずっと素晴らしいままだった代替インターネットのような感じだ。
    • DuckDuckGo をメインの検索エンジンとして使い、Yandex を補助として使っている。
  • Google が内部からどのように破壊されたのかを示す冷静な記事だ。
    https://www.wheresyoured.at/the-men-who-killed-google/

    • 内部情報がなくても、2019年末の Google アップデートは覚えている。そのとき本当に壊れ、「邪悪になるな」から完全に邪悪な側へ行ってしまった。
      実際には自分が予想していたより遅く起きたが、今まで影響が続くほど明確な出来事だったように見える。
  • Giant Freakin' Robot は 集約サイト だった。その「コンテンツ」は、他の Web ページへのリンクと、それについての冗長な文章だけだ。Google は今では集約サイトを認識し、順位を下げているようだ。
    Google 自体が集約サイトなのだから、他の集約サイトにトラフィックを渡す理由はない。Yelp のようなものも下げてくれればいいのに。

    • サイトをざっと見たところ、自分には元コンテンツへのリンクしかないように見える。
  • インターネットを長く使っている人たちは、インターネット検索をどんな用途に使っているのか気になる。私の場合は次の3つのどれかです。
    1つ目は、情報がどのWebサイトにあるか分かっていて、そこへ直接行くこと。たとえば Wikipedia、Github、Google Maps です。
    2つ目は、実際の人間の意見やフィードバックが必要なので、たいてい Reddit ドメインだけを対象に Google 検索すること。
    3つ目は、検証しやすいよく知られた情報が必要な場合で、これは大規模言語モデルが非常に得意な問題です。
    これが私の「サーフィン」活動の95%以上なので、主要な検索エンジンがある日落ちても、ほとんど気づかないと思います。

    • それはインターネットを使っているのではなく、Redditを壁に囲まれた庭のように使っているだけです。分散化されたインターネットに価値があると信じるなら、危険なやり方です。