AIスクレイパーのせいで良いサービスを維持できない理由

(blog.metabrainz.org)

1 ポイント投稿者 GN⁺ 2026-01-14 | 1件のコメント | WhatsAppで共有

最近、AI企業による無断データ収集のせいで、MetaBrainzのサーバーが過負荷に見舞われている
これらの企業は robots.txt の規則を無視し、MusicBrainzのデータをページ単位でクロールしており、これは数百年かかるほど非効率な方式である
同様の行為が ListenBrainz API にも広がり、サービス保護のため 認証トークンの要求と一部APIの閉鎖 が実施された
LB Radio はログインユーザーのみ利用可能で、API呼び出し時にも Authorization ヘッダー が必要となる
これらの措置は、正規ユーザーのアクセス性を維持するための不可欠な対応だと説明されている

AIスクレイパーによるサーバー過負荷問題

MetaBrainzチームはここ数か月、AIモデル学習用データ収集のための無断クロールへの対応に追われている
- 一部のAI企業は robots.txt など基本的なインターネット上の礼儀を無視してデータを収集している
- MusicBrainzのデータに1ページずつリクエストする方式でアクセスしており、全体をダウンロードするより非効率で、サーバー負荷を引き起こしている
このようなアクセスは 数百年かかるレベルの非効率性 を持ち、結果として 正規ユーザーのアクセス妨害 につながっている

ListenBrainz APIの保護措置

AIスクレイパーが ListenBrainzの複数のAPIエンドポイント を対象にデータ収集を試みている
これに伴い、次のような変更が行われた:
- /metadata/lookup API（GETおよびPOST）は Authorization トークン がなければ動作しない
- ListenBrainz Labs API の mbid-mapping、mbid-mapping-release、mbid-mapping-explain エンドポイントは削除された
  - このAPIはもともと デバッグ用 に提供されており、今後 新しいマッパー用エンドポイント に置き換えられる予定
- LB Radio はログインユーザーのみ利用可能で、API呼び出し時には Authorization ヘッダー が必要

サービス安定性確保のための緊急対応

MetaBrainzは、今回の措置が サービスの過負荷防止と正常運用の維持 のためのやむを得ない決定だと説明している
ユーザーに 予告のない変更 で不便をかけたことを謝罪し、年末のプロジェクト完了後に エラーメッセージを改善 する予定としている

コミュニティの反応

コメント欄では、AIスクレイパーの 非効率的なアクセス方式 と 自動化されたWebスパイダーの構造 について議論が続いている
- 一部のユーザーは「AI作業者たちの無能さ」を指摘
- 別のユーザーは「自動化されたクローラーが単にリンクをたどってデータを収集しているためだ」と説明

全体的な意味

MetaBrainzの措置は、AIによるデータ収集がオープンデータプロジェクトに与える被害 を示す事例である
公共APIの持続可能性 のため、認証強化とアクセス制限が避けられなくなっている

1件のコメント

GN⁺ 2026-01-14

Hacker Newsの意見

Metabrainzは本当に素晴らしい公益データベースだ
以前、この件についてEFFのブログ記事を書いたことがある
Metabrainzのような公共データはAIボットに持っていかれても構わないが、今のような非効率なやり方でスクレイピングされるのが問題だ
結局は調整の失敗の問題だ。Metabrainzはボットの善意を前提にしているが、ボット側はサイトがデータを隠していると考えている
「APIを叩くのはやめて、ここにあるgzipped tarファイルをまとめて取っていけ」と言っても信じない
むしろtorrentファイルで提供した方が、ボット同士でデータをうまく共有するようになるかもしれない
- 私もAIスクレイパーのせいで自分のサイトtvnfo.comを閉じた
  2016年から公開していたが、リソース消費が大きすぎて、今は支援者限定で運営している
  月60ドルの趣味プロジェクトなので維持が厳しい。今後支援が増えれば、ボット防御ソリューションを導入して再公開するかもしれない
  でも、こういう問題が自分だけではないと知って驚いた。結局、インターネットはますます閉じていく方向に向かっているように思える
- robots.txtで「ここからtarファイルを取っていけ」と知らせる方法があるのだろうか
  標準にそういう機能があるのか分からない
- ボットがtorrentを使うなら、共有統計の操作も可能だ
  以前、自分もプライベートトラッカーで追放されないようにアップロード比率を水増ししたことがある
- ボットがサイトを敵対的な存在とみなしているというのは深刻な問題だ
  サイト所有者の意思を無視するのは誤ったアプローチだ
- 実際、ほとんどの「AIスクレイパー」は単なる再帰クローラースクリプトだ
  本物のAIがページを読んで判断しているのではなく、リンクをたどって文書を拾っていく自動化コードにすぎない
AIが自由なWebエコシステムを破壊している
私のWebホストは、突然急増したボットトラフィックのせいでアカウントを停止した
結局、新しいホストへ移ったが、個人運営者にはこういう状況で希望がない
AI企業は無限の資源を持っていて、被害には関心がない
冷笑的に見れば、これは意図された戦略なのかもしれない――無料サイトを消し去り、人々が最終的にAIモデル経由でしか情報を得られないようにするためだ
- AI要約サービスが独立Webのトラフィックの半分以上を奪っている
  情報共有の経済性が崩れている
  結局、少数の企業が価値を独占し、その後で**エンシッティフィケーション（enshittification）**が始まるだろう
子どもの学校のPTAサイトを管理しているが、OpenAIのボットがイベントカレンダーを無作為にクロールしていた
西暦1000年から3000年までリクエストが続いた
User-Agentをブロックしたら、4時間ほどしてようやく止まった
私はGoogle Cloudのe2-micro VPSで静的Webサイトとcgitインスタンスを運用している
160日間でOpenAIとClaudeから850万件を超えるリクエストを受けた
そのためlighttpdでUser-Agentにclaude|openaiが含まれていれば403を返すよう設定し、nftablesでレート制限をかけた
- こういうボットはまだ「良心的」な部類だ
  本当の問題は住宅用プロキシを使ったボットネットだ。普通のブラウザを装って入ってくる
- OpenAIは公式ボットIPリストを公開しているが、Anthropicはそうしていない
- 興味深いことに、私のGitHubブログにはこうしたスクレイピングがまったくない
  Microsoftが防いでいるのか、それとも私のブログがボットにとって興味のないレベルなのかと思う
Cloudflareは今やAIスクレイパー検知サービスを提供している
検知したボットを無限ループのAI生成ページへ誘導する
- ただし、こうするにはすべてのトラフィックをCloudflare経由にしなければならない
  結局、第三者が自分のコンテンツへのアクセス権を決めることになるので不快だ
- CloudflareはVPNや珍しいブラウザの利用者にアクセス問題をしばしば引き起こす
  私も不満が多くて結局外した
- 「TLS追加・除去サービス」としては適切ではないと思う
- 関連するアイデアとしてPoison Fountainプロジェクトがある
- Cloudflareが十分な数のサイトを押さえれば、AI企業にキャッシュアクセス料を課すこともできるかもしれない
SQLiteチームも似た問題に直面した
創始者Richard Hippは「リポジトリ全体を複製すればいいのに、わざわざ他人に迷惑をかけてクロールしていく」として、**『利己的な行為』**を批判していた
関連フォーラム投稿参照
- ただ、ある人は「悪意的だなんて、あまりに大げさな表現だ」と反論していた
時間がたつほど、あらゆるクロールをCommon Crawlのような共通チャネルに統合すべきだと思うようになっている
サーバー負荷を減らしつつ、Webの開放性とスクレイピング可能性を維持しなければならない
たとえば/well-known/の下にタイムスタンプ付きデータダンプリンクを置く形で標準化できるかもしれない
- MetaBrainzはすでにこの方式を使っている――DB全体をtarballで提供している
  私も1時間ほどかけてダウンロードし、その後はローカルクエリで済ませた
  でも多くの人は今でもスクレイピングの方が簡単だからダンプを使わない
- 私は著作権制度の改革が必要だと思う
  一定期間後にデータを「国家データセット」に寄付すれば、AI学習用に活用し、その収益を著作権者に分配する仕組みを提案したい
  こうすればAI開発者、著作権者、一般大衆の全員が利益を得られる
- 私も個人的にTampermonkeyスクリプトで小規模なスクレイピングをしている
  AIを使ってコードを生成し、VPSの価格リストのようなものを自動収集している
  以前はlowendtalkの全ヘッドラインを拾ってきて、LLM分析用データセットにしたこともある
- /llms.txtのような標準ファイルを作り、LLMに必要な純粋なテキストデータだけを提供するのも一案だと思う
  URL、住所、電話番号などは取り除き、<item>や<subitem>のような最小限のマークアップだけを残すイメージだ
  ただし、多くのサイトが形式だけ整えた空ファイルを置く可能性がある
- 実のところ、これは技術的問題ではなく経済構造の問題だ
  巨大資本が短期利益のためにWebを壊している
  それでも最終的には適応と均衡が生まれると信じている
最近はAIスクレイパーだけでなく、ユーザー自身が要約リクエストを通じて間接的にスクレイピングしている
たとえばFirefoxはリンクをクリックしなくても要約プレビューを提供する
関連画像
- この機能では、ローカルでllama.cpp（wllama）上で動くSmolLM2-360Mモデルが要約を生成している
  結局ブラウザが直接ページを取得して要約するので、サイト側から見れば同じリクエストに見える
  Mozilla公式説明参照
- 問題は3つある
  1. AI企業の非倫理的なクローリング
  2. ユーザーのエージェントベースの要約リクエスト
  3. こうしたエージェントが人間より非効率なのに、はるかに速いこと
- ただし、ユーザーが「訓練された」から使っているのではなく、単純にLLMが本当によく機能するから使っているのだ
最近のスクレイパーは住宅用IPプールを使って検知を回避している
- こうしたIPプールを提供するISPが新しい収益モデルを作ったのではないかと疑っている
- しかも今では実際のブラウザを動かすボットも多く、CloudflareのCAPTCHAも通過する
  こういう状況で、防御策がどれだけ長く有効なのか分からない

AIスクレイパーのせいで良いサービスを維持できない理由

AIスクレイパーによるサーバー過負荷問題

ListenBrainz APIの保護措置

サービス安定性確保のための緊急対応

コミュニティの反応

全体的な意味

関連記事

1件のコメント

Hacker Newsの意見