- 最近、AI企業による無断データ収集のせいで、MetaBrainzのサーバーが過負荷に見舞われている
- これらの企業は robots.txt の規則を無視し、MusicBrainzのデータをページ単位でクロールしており、これは数百年かかるほど非効率な方式である
- 同様の行為が ListenBrainz API にも広がり、サービス保護のため 認証トークンの要求と一部APIの閉鎖 が実施された
- LB Radio はログインユーザーのみ利用可能で、API呼び出し時にも Authorization ヘッダー が必要となる
- これらの措置は、正規ユーザーのアクセス性を維持するための不可欠な対応だと説明されている
AIスクレイパーによるサーバー過負荷問題
- MetaBrainzチームはここ数か月、AIモデル学習用データ収集のための無断クロールへの対応に追われている
- 一部のAI企業は robots.txt など基本的なインターネット上の礼儀を無視してデータを収集している
- MusicBrainzのデータに1ページずつリクエストする方式でアクセスしており、全体をダウンロードするより非効率で、サーバー負荷を引き起こしている
- このようなアクセスは 数百年かかるレベルの非効率性 を持ち、結果として 正規ユーザーのアクセス妨害 につながっている
ListenBrainz APIの保護措置
- AIスクレイパーが ListenBrainzの複数のAPIエンドポイント を対象にデータ収集を試みている
- これに伴い、次のような変更が行われた:
/metadata/lookup API(GETおよびPOST)は Authorization トークン がなければ動作しない
- ListenBrainz Labs API の
mbid-mapping、mbid-mapping-release、mbid-mapping-explain エンドポイントは削除された
- このAPIはもともと デバッグ用 に提供されており、今後 新しいマッパー用エンドポイント に置き換えられる予定
- LB Radio はログインユーザーのみ利用可能で、API呼び出し時には Authorization ヘッダー が必要
サービス安定性確保のための緊急対応
- MetaBrainzは、今回の措置が サービスの過負荷防止と正常運用の維持 のためのやむを得ない決定だと説明している
- ユーザーに 予告のない変更 で不便をかけたことを謝罪し、年末のプロジェクト完了後に エラーメッセージを改善 する予定としている
コミュニティの反応
- コメント欄では、AIスクレイパーの 非効率的なアクセス方式 と 自動化されたWebスパイダーの構造 について議論が続いている
- 一部のユーザーは「AI作業者たちの無能さ」を指摘
- 別のユーザーは「自動化されたクローラーが単にリンクをたどってデータを収集しているためだ」と説明
全体的な意味
- MetaBrainzの措置は、AIによるデータ収集がオープンデータプロジェクトに与える被害 を示す事例である
- 公共APIの持続可能性 のため、認証強化とアクセス制限が避けられなくなっている
1件のコメント
Hacker Newsの意見
Metabrainzは本当に素晴らしい公益データベースだ
以前、この件についてEFFのブログ記事を書いたことがある
Metabrainzのような公共データはAIボットに持っていかれても構わないが、今のような非効率なやり方でスクレイピングされるのが問題だ
結局は調整の失敗の問題だ。Metabrainzはボットの善意を前提にしているが、ボット側はサイトがデータを隠していると考えている
「APIを叩くのはやめて、ここにあるgzipped tarファイルをまとめて取っていけ」と言っても信じない
むしろtorrentファイルで提供した方が、ボット同士でデータをうまく共有するようになるかもしれない
2016年から公開していたが、リソース消費が大きすぎて、今は支援者限定で運営している
月60ドルの趣味プロジェクトなので維持が厳しい。今後支援が増えれば、ボット防御ソリューションを導入して再公開するかもしれない
でも、こういう問題が自分だけではないと知って驚いた。結局、インターネットはますます閉じていく方向に向かっているように思える
標準にそういう機能があるのか分からない
以前、自分もプライベートトラッカーで追放されないようにアップロード比率を水増ししたことがある
サイト所有者の意思を無視するのは誤ったアプローチだ
本物のAIがページを読んで判断しているのではなく、リンクをたどって文書を拾っていく自動化コードにすぎない
AIが自由なWebエコシステムを破壊している
私のWebホストは、突然急増したボットトラフィックのせいでアカウントを停止した
結局、新しいホストへ移ったが、個人運営者にはこういう状況で希望がない
AI企業は無限の資源を持っていて、被害には関心がない
冷笑的に見れば、これは意図された戦略なのかもしれない――無料サイトを消し去り、人々が最終的にAIモデル経由でしか情報を得られないようにするためだ
情報共有の経済性が崩れている
結局、少数の企業が価値を独占し、その後で**エンシッティフィケーション(enshittification)**が始まるだろう
子どもの学校のPTAサイトを管理しているが、OpenAIのボットがイベントカレンダーを無作為にクロールしていた
西暦1000年から3000年までリクエストが続いた
User-Agentをブロックしたら、4時間ほどしてようやく止まった
私はGoogle Cloudのe2-micro VPSで静的Webサイトとcgitインスタンスを運用している
160日間でOpenAIとClaudeから850万件を超えるリクエストを受けた
そのためlighttpdでUser-Agentに
claude|openaiが含まれていれば403を返すよう設定し、nftablesでレート制限をかけた本当の問題は住宅用プロキシを使ったボットネットだ。普通のブラウザを装って入ってくる
Microsoftが防いでいるのか、それとも私のブログがボットにとって興味のないレベルなのかと思う
Cloudflareは今やAIスクレイパー検知サービスを提供している
検知したボットを無限ループのAI生成ページへ誘導する
結局、第三者が自分のコンテンツへのアクセス権を決めることになるので不快だ
私も不満が多くて結局外した
SQLiteチームも似た問題に直面した
創始者Richard Hippは「リポジトリ全体を複製すればいいのに、わざわざ他人に迷惑をかけてクロールしていく」として、**『利己的な行為』**を批判していた
関連フォーラム投稿参照
時間がたつほど、あらゆるクロールをCommon Crawlのような共通チャネルに統合すべきだと思うようになっている
サーバー負荷を減らしつつ、Webの開放性とスクレイピング可能性を維持しなければならない
たとえば
/well-known/の下にタイムスタンプ付きデータダンプリンクを置く形で標準化できるかもしれない私も1時間ほどかけてダウンロードし、その後はローカルクエリで済ませた
でも多くの人は今でもスクレイピングの方が簡単だからダンプを使わない
一定期間後にデータを「国家データセット」に寄付すれば、AI学習用に活用し、その収益を著作権者に分配する仕組みを提案したい
こうすればAI開発者、著作権者、一般大衆の全員が利益を得られる
AIを使ってコードを生成し、VPSの価格リストのようなものを自動収集している
以前はlowendtalkの全ヘッドラインを拾ってきて、LLM分析用データセットにしたこともある
/llms.txtのような標準ファイルを作り、LLMに必要な純粋なテキストデータだけを提供するのも一案だと思うURL、住所、電話番号などは取り除き、
<item>や<subitem>のような最小限のマークアップだけを残すイメージだただし、多くのサイトが形式だけ整えた空ファイルを置く可能性がある
巨大資本が短期利益のためにWebを壊している
それでも最終的には適応と均衡が生まれると信じている
最近はAIスクレイパーだけでなく、ユーザー自身が要約リクエストを通じて間接的にスクレイピングしている
たとえばFirefoxはリンクをクリックしなくても要約プレビューを提供する
関連画像
結局ブラウザが直接ページを取得して要約するので、サイト側から見れば同じリクエストに見える
Mozilla公式説明参照
最近のスクレイパーは住宅用IPプールを使って検知を回避している
こういう状況で、防御策がどれだけ長く有効なのか分からない