Googleはもう私たちを嫌っているようだ

(twitter.com/pokemoncentral)

7 ポイント投稿者 GN⁺ 2026-05-21 | 4件のコメント | WhatsAppで共有

Pokémon Central Wiki は15年以上にわたりイタリア語の Pokémon 情報の主要な情報源だったが、現在は Google 検索結果からほぼ姿を消している
wiki.pokemoncentral.it は MediaWiki ベースの大規模ウィキであるにもかかわらず、site: 検索の結果が文字どおり4件しか返ってこない
インデックスの急減は 2026年3月の core update 前後に始まり、Search Console には "crawled - currently not indexed" が大量に表示されている
Bing、DuckDuckGo などでは正常にインデックスされているため、Google に限定された問題とみられ、Google-Extended のブロックもドキュメント上はインデックスに影響しないはず
サーバーや Cloudflare の設定、Open Graph と schema.org タグ、SWR などの最適化を適用したが、まだ効果はなく原因は不明

Google 検索インデックスの急減

Pokémon Central Wiki は15年以上にわたり、イタリア語の Pokémon 情報で最もよく知られた情報源だったが、現在は Google 検索結果にほとんど表示されない
wiki.pokemoncentral.it は Wikipedia で使われているオープンソースソフトウェア MediaWiki で運営されており、Wikistats 基準では世界の上位500の MediaWiki インスタンスの1つである
PCW は Encyclopaediae Pokémonis 国際ウィキネットワークの一部であり、このネットワークには Bulbapedia も含まれる
多くのコンテンツは許可を得て Bulbapedia から翻訳されており、数千人の人間のボランティアが作業に参加している
他の EP ウィキは、コミュニティでの確認と site: 検索の基準では正常にインデックスされている
PCW に対して site:http://wiki.pokemoncentral.it で検索すると、現在返ってくる結果は 4件のみ
数週間前、2026年3月の core update 前後から Google Search Console で多くのページが "crawled - currently not indexed" 状態として表示され始めた
Google は、そのページが今後インデックスされる可能性もあればされない可能性もあると表示するだけで、具体的な理由は示していない

確認した原因と対応

コンテンツ品質の低下や運営上の問題とは考えにくい
- 編集ポリシーの変更、悪用、品質低下はなかった
- 5xx エラーのような純粋な技術的問題であれば、Google Search Console では別の形で表示されていた可能性が高い
Google に限定された問題 とみられる
- Bing、DuckDuckGo、その他の検索エンジンは PCW を正常にインデックスしている
Cloudflare を通じて AI 学習用スクレイパーはブロックしている
- ユーザーの問い合わせで PCW を根拠資料や参考文献として使おうとする AI ボットはブロックしていない
- robots.txt で Google-Extended をブロックしているが、Google のドキュメント上ではこれは検索インデックスに影響しないはず
Cloudflare の managed challenge は、ページ履歴、技術ページなど、インデックス上重要でないセクションにのみ適用している
- これらのセクションは robots.txt で明示的に許可されていない
- これらのページはキャッシュしにくく、サーバー資源を多く消費する
- ボットが毎分数千件のリクエストを送り、サーバーに過負荷を引き起こしている
サーバーと Cloudflare の設定を調整してサイト速度を向上させた
- ここ数週間で適用可能な誠実な SEO と最適化のベストプラクティスを反映した
- Claude Code で Open Graph と schema.org タグを繰り返し改善した
- Cloudflare SWR を機能させ、ほとんどのリクエストがサーバーを経由せずエッジからミリ秒単位で配信され、バックグラウンドで再検証されるようにした
こうした変更はまだ効果を出していない
- 変更の反映には数週間かかる可能性があり、Google は不透明なため実際の効果があったかどうかをすぐ確認しにくい
可能性としては、Google がアルゴリズムを調整する中で、AI 時代において PCW の「コンテンツ品質」が十分でないと判断したことが考えられる
- LLM はブロック以前にすでに PCW のテキストで学習していた可能性がある
- PCW のコンテンツをそのまま大量にコピーした他のサイトは、依然として検索結果に残っている
- PCW のコンテンツは CC BY-NC-SA ライセンスであり、一般的にはコピー自体が問題になるわけではない
熱心な訪問者たちは状況を理解できずに問い合わせており、Reddit にも関連投稿が上がっている
現在は直接訪問できるように wiki.pokemoncentral.it をブックマークするよう案内している
Google 内部で確認できる人に届き、何が起きているのかを理解できることを願っている

4件のコメント

ndrgrd 29 일 전

数年前にTistoryブログにあれこれ整理して置いておいたのですが、そちらは今でも検索結果によく上がってきて閲覧数も出る一方で、個人ドメインのほうはインデックスも半分ほどしかされず、あまり上位に上がってこないんですよね

quilt8703 29 일 전

Ghostベースの個人ブログを運営しています。投稿が100本くらいたまった頃にSearch Consoleを見るようになったのですが、メインページ以外は crawled not indexed の状態で放置されていて、あれこれ試したものの半ば諦めていました。ところが、記事が500本くらいを超えた時点で突然インデックスされるようになったんです。今でもインデックスされていない投稿もありますし、インデックスされたあとに取り消されたページもあって、基準が何なのかはよくわかりませんが、とにかくもどかしいです。

xguru 2026-05-21

これはGoogle側の問題で間違いない気がします。私が運営している複数のサイトでも同じことが起きています。
特に理由もなく、Googleがインデックスしてくれません。いつかはやるのかもしれませんが、本当にいつかになりそうです

GN⁺ 2026-05-21

Hacker Newsの意見

Googleは私たちを嫌っているというより、もっと悪いことに 無関心 なのに近い
嫌うには少なくとも認識している必要がある。この件ひとつだけでは大した意味はないかもしれないが、全体としてGoogleは妙な方向へ進んでいる。かつては最先端だったのに、20年で品質を株主利益のために犠牲にする、また別の大企業になってしまったようだ
検索エンジンとしてはもう役に立たない。実際に探しているものより上に宣伝リンクが先に出てくる。Kagiに移ってからは振り返っていない
AIとしてもいまひとつ合わない。5時間後にリセットされる任意の使用制限と、パーセント表示の週間割り当てが見えるが、極めて不透明だ。Kagiは使用量の詳細で残りが明確に見える。ちなみにKagiの社員ではなく、ただの満足している顧客だ
クラウドストレージとしても微妙だ。一緒に作業している共有フォルダのどこかにスパムユーザーや乗っ取られたアカウントがいるのか、定期的に成人向けコンテンツの通知をばらまいてくる。私だけではない(https://www.reddit.com/r/techsupport/comments/1azf25v/myster...)。Apple iCloudに移って終わりにした
メールは悪くない。22年間使ってきたので、今では人生の中でそれほど重要ではない段階に押しやっている。重要なものはどうせ欧州のプロバイダーに移してある
- 気が狂っているように聞こえるかもしれないが、最後の手段として Yandex を使っていて、Googleがもう見せないことにしたような資料を探すのに良い結果が出る
  DDGも使ってみたが、自分の用途ではGoogleよりさらに悪かった
- Google Mapsで特定のレストランを検索すると、ただ全般的に腹を空かせた人だと想定しているように見える
  さっきA&Wを探したら、Tim Hortons、Popeyes、McDonald'sも一緒に出てきた。Apple Mapsは絶対にそんなことをしない。それでも営業中かどうかや営業時間が正確かを知りたいので、たいていはGoogleを使う
- Kagi は素晴らしい
  それでもGoogleのような巨大企業が、AlphaFoldや、それほどではないにせよGemmaのような無料で優れた研究を公開しているのは依然としてすごい。現代のATT PAC BellやIBMのような存在に見える
- 宣伝リンク が狂っているレベルで、上位5～6件のリンクが広告に見えることが多い
- Kagi AIをどう使うのか気になる
  検索サービスは1年間有料で使っているが、AI機能の提供はまだ見ていない
ウィキだからそうなり得る。最近の ウィキスパマー はしつこい
私が管理を手伝っている、プレイヤー1万人未満のあまり知られていないゲーム向けの小さなウィキでも、最近は新規登録を止めざるを得なかった。スパムがひどすぎたし、CAPTCHAをサポートしない古いMediaWikiバージョンに縛られていたからだ
人気のあるウィキなら、ここもかなり人気があったようだし、CAPTCHAだけでウィキスパマーを止めるのは難しいだろう。スパマーが単なる「精力剤を買え」系のゴミ投稿ではなく、マルウェアサイトへのリンクまで載せていたなら、Googleがある程度正当にそのウィキをそうしたマルウェアの発信源と見なした可能性はある
元記事の投稿者が取れる解決策は、ウィキの悪意あるコンテンツを徹底的に監査して整理したうえでGoogleに異議申し立てすることだろう。もちろんGoogleなので、返答するとしても数か月かかる可能性が高い
結局のところ、この件を担当するGoogleチームにイタリアのPokémonファンがいない限り、かなり厳しそうだ
- 新規アカウントの権限制限、うまく調整されたCloudflareルール群、最近の編集を継続的に巡回する献身的なボランティアチームまで備えた アンチボットシステム を運用している
  3万7千ページを超える中の、ほとんど訪問されないどこかにスパムリンクが1つある可能性は否定できないが、インデックス除外の理由とは考えにくい。もしそうならGoogle Search Consoleにも出ていたはずだ
- プロジェクトが独自の自動化を作る価値があるほど有名になったら、実質的にスパムと戦う方法はない
  十分に小さければ、登録手順に非標準のフローをひとつ入れるだけで、たいていすべてのスパムボットを避けられる。たとえば、対象読者だけが分かる静止画像や音声を置いて「私はボットではありません」のドロップダウンで選ばせるとか、最初の投稿や編集に追加のメール認証を付けるとか、YouTubeの長い動画の特定時点にある答えを要求するといった具合だ。非標準なら何でも効く
  自動化の99.9%は壊れるし、検索結果操作のスパマーは特定のウィキやフォーラム専用の固有自動化を作ったりしない
  サイトが非常に有名なら、当然ながら終わりのない軍拡競争になる。この場合はHashcashのようなものを使って、毎回CPU/GPU/RAMを大量に消費させれば、スパマーは単にブラックリスト入りさせるかもしれない
- 数日前ここで、日常的に Captcha AIボット を使っているという人がいて、1回解くコストは0.003ドルだと言っていた
  だからCAPTCHAのある新しいバージョンだったとしても役に立たなかったかもしれない
- CAPTCHAはスパマーには何の役にも立たない
  登録時にメールドメインをブロックする方式はかなりうまく機能した。私のリストは https://www.rejectionwiki.com/index.php?title=MediaWiki:Emai... にある。MediaWikiの組み込み機能なので、ほとんどのバージョンで問題なく動くはずだ
- このウィキがスパムまみれだと言う根拠があるのか、それともただの当て推量なのか分からない
  彼らはTwitterスレッドで、AIのゴミコンテンツで埋まっているわけではないと明確に述べていたし、「クロール済みだがインデックス未登録」と表示されたページ一覧も確認したが、悪用の痕跡は見つからなかったと言っていた
  自分が管理していたウィキがスパム攻撃を受けて驚いたのは理解できるが、自分のウィキで起きたことをあちらにも一般化するのは合理的ではない
正直に言えば、Google側の 雑なバグ である可能性が高い
検索には遅れて現れる原因と結果が多く、ウェブサイトの0.1%がクロールやインデックスから外れるような小さなミスを犯すのは、その事象が起きたと検知するよりはるかに簡単だ。影響を受けたサイトが知らせるまでは特にそうだ
marginaliaでもバグを経験したことがある。ルートパスがHEADはサポートしないが、Range ヘッダー付きGETはサポートし、HTTP 206で正しく応答する場合、そのサイトはインデックスされなかった。初期探索でルートドキュメントの問題を検査していたコードが、それをエラー状態として扱っていたからだ
Rangeリクエストをサポートするサイトの大半はHEADもサポートする。通常はドキュメントが動的生成ではないことを意味するからだ。ただしCaddyベースの設定の一部、サーバーの約0.3%は例外だった
- あるいは、何らかのAIが表示したくない種類のコンテンツだと判定したのかもしれない
  そういう判定が完璧であるはずはない
- インデックスされたページが51万1千件から11件に減ったなら、それはかなり深刻な雑さだ
Googleはすでにデータをかき集めてモデル学習まで済ませたのだから、なぜわざわざウェブサイトにトラフィックを送る必要があるのか
コンテンツ制作者とまともなウェブサイトは 使い捨てられた わけだ
- Googleをこういうふうに擬人化するのは現実的ではない
  Googleの検索チームだけでも何千人もいて、全員がウェブをアクセスしやすくするという大きな使命のもとで、それぞれ別の仕事をしている。誰かのリリースでもこの種の副作用を生み得る
  意図的なポリシー実装だった可能性もゼロではないが、確率はかなり低そうだ
- 私も同じことを考えた。こういうデータのかなりの部分は安定していて静的なのではないか
  コーパスがすでに機能的に完成しているなら、価値の低いものを延々と再クロールして再インデックスする理由が分からない
- その表現を読んだとき、David BowieのSuffragette Cityを聴いていた
  Bowieは “wham bam, thank you ma’am” という表現を広めた人の一人だった気がする
- ではそれは、この20年間 広告ブロック利用者 がやってきたことと同じではないのか
  反対票を押しても違いの説明にはならない
  広告ブロック利用者がクリエイターの収益を妨げていると言われると、1996年のインターネットも良かったとか、オンラインにコンテンツを上げるなら報酬を期待すべきではないとか、自分のコンピューターなのだから何を読み込むか選べると言ったりしていた。その理屈はどこへ行ったのか
数週間前、私のブログでも同じことが起きた
何年も参照されていたブログだったのに、突然ほとんどすべての記事がインデックスされなくなった。Search ConsoleにはURLはクロール済みだが現在はインデックス未登録と表示され、技術的問題と違って自分で直せることはない。もう自分の記事の大半はGoogleでは見つからないと受け入れるしかない
実際に関係があるとは思わないが、振り返ると、自分のコンテンツをLLM学習に使わせないために TDMRep の設定を始めた時期とタイミングが一致している
- 私も同じだ。個人ブログを20年以上運営してきたが、去年Googleで自分のブログへのリンクを1つも見つけられなかった
  Google Search Consoleに入ってみると、すべてのリンクが「クロール済みだがインデックス未登録」状態で、理由は示されていなかった
- Googleがすでにサイトの学習データを吸い上げたなら、インデックスしないことはGoogle検索をサイト発見に使う競合に対する一種の堀になり得る
本物のコミュニティサイトを作ったのが古典的なSEOの失敗だった
Redditスレッド、クーポンのサブフォルダ、AI要約を作るべきだった。冗談はさておき、すぐに回復できることを願う
Googleは私たち全員を嫌っているとまで言える
- Googleは私たちの誰も嫌っても愛してもいない
  組織として気にしているのは、できるだけ多くの人の前にできるだけ多くの広告を押し込み、ますます馬鹿げた金の山を作ることだけだ
  Googleを擁護するつもりはない。Googleはほとんどすべての大企業と同じく、完全に ソシオパス的 だ
参考までにGoogleは OpenCV も嫌っている
以前は簡単に検索できたもの、たとえば「opencv orb」を検索すると、今ではスパムサイトがページ単位で出てくる。基本的には「ここでOpenCVを学ぼう！」系のブログスパムだ
“docs.opencv.org” の最初の結果が文字通り4ページ目に出てきて、それも9年前の3.4バージョンを指している
私が欲しいページである https://docs.opencv.org/4.13.0/dc/dc3/tutorial_py_matcher.ht... はどこにもない
- サブスク費用で運営されていない製品は、エンシティフィケーション のせいで、もうしばらく前から壁の文字が見えていたと思う
  お金で投票して、広告主志向ではなく顧客志向のより良い製品に移るべきだ
  十代や若い頃にNewgroundsを見て回り、サーバー運営費を払っている人たちに感謝していた記憶が良い形で残っている。自分も落ち着いて余裕ができたら次の人たちのために払おうと決めていて、思ったより時間はかかったが、ほぼ10年間そうしてきた
  だから、そういう文化を普通のものにしようと勧めたい。一定割合の有料顧客がいて、お金を払えない人たちに無料を維持したり成長を支えたりできる構造だ。Newgroundsのような素晴らしいサイトから、何万人ものプログラミングやアニメーションのキャリアが始まったか、少なくとも刺激を受けた可能性が高く、社会的にも純効果は非常に大きかったと思う
- Googleで OpenStackドキュメント も似た問題を抱えていた
昨日の基調講演とSearchの変更を見ると、近い将来Googleがウェブサイトにトラフィックを送るのをやめるのは明らかになった
検索結果は単なる Geminiの回答 の脚注になるだろう
ウィキはSEOの観点からリスクが高い
自分の個人ウィキをインデックスさせるのも難しすぎてほとんど諦めたが、この分野に詳しい友人が必要な設定をすべて整えるのを手伝ってくれて、ようやくできた
気をつけないと、人がサイトのあちこちに簡単にスパムを入れられてしまい、そうなると検索エンジンでの存在感が本当に壊れる
ただGoogleは本当に大きい。本当に、本当に大きい。大きすぎて、Google内部の人でさえ、この種のテーマでは誰もGoogleから全面的に信頼されているわけではない
それでもGoogleがウィキ全般を嫌っているわけではない。ただ、多くの作業が必要で、ウィキにスパムがないことを確認し、メタタグ情報を埋め、sitemap.xmlも用意するなど、いろいろ必要になる。私のウィキの例はここにある: https://wiki.roshangeorge.dev/w/images/8/89/Screenshot_-_Goo...