1 ポイント 投稿者 GN⁺ 2026-01-14 | 1件のコメント | WhatsAppで共有
  • 最近、AI企業による無断データ収集のせいで、MetaBrainzのサーバーが過負荷に見舞われている
  • これらの企業は robots.txt の規則を無視し、MusicBrainzのデータをページ単位でクロールしており、これは数百年かかるほど非効率な方式である
  • 同様の行為が ListenBrainz API にも広がり、サービス保護のため 認証トークンの要求と一部APIの閉鎖 が実施された
  • LB Radio はログインユーザーのみ利用可能で、API呼び出し時にも Authorization ヘッダー が必要となる
  • これらの措置は、正規ユーザーのアクセス性を維持するための不可欠な対応だと説明されている

AIスクレイパーによるサーバー過負荷問題

  • MetaBrainzチームはここ数か月、AIモデル学習用データ収集のための無断クロールへの対応に追われている
    • 一部のAI企業は robots.txt など基本的なインターネット上の礼儀を無視してデータを収集している
    • MusicBrainzのデータに1ページずつリクエストする方式でアクセスしており、全体をダウンロードするより非効率で、サーバー負荷を引き起こしている
  • このようなアクセスは 数百年かかるレベルの非効率性 を持ち、結果として 正規ユーザーのアクセス妨害 につながっている

ListenBrainz APIの保護措置

  • AIスクレイパーが ListenBrainzの複数のAPIエンドポイント を対象にデータ収集を試みている
  • これに伴い、次のような変更が行われた:
    • /metadata/lookup API(GETおよびPOST)は Authorization トークン がなければ動作しない
    • ListenBrainz Labs APImbid-mappingmbid-mapping-releasembid-mapping-explain エンドポイントは削除された
      • このAPIはもともと デバッグ用 に提供されており、今後 新しいマッパー用エンドポイント に置き換えられる予定
    • LB Radio はログインユーザーのみ利用可能で、API呼び出し時には Authorization ヘッダー が必要

サービス安定性確保のための緊急対応

  • MetaBrainzは、今回の措置が サービスの過負荷防止と正常運用の維持 のためのやむを得ない決定だと説明している
  • ユーザーに 予告のない変更 で不便をかけたことを謝罪し、年末のプロジェクト完了後に エラーメッセージを改善 する予定としている

コミュニティの反応

  • コメント欄では、AIスクレイパーの 非効率的なアクセス方式自動化されたWebスパイダーの構造 について議論が続いている
    • 一部のユーザーは「AI作業者たちの無能さ」を指摘
    • 別のユーザーは「自動化されたクローラーが単にリンクをたどってデータを収集しているためだ」と説明

全体的な意味

  • MetaBrainzの措置は、AIによるデータ収集がオープンデータプロジェクトに与える被害 を示す事例である
  • 公共APIの持続可能性 のため、認証強化とアクセス制限が避けられなくなっている

1件のコメント

 
GN⁺ 2026-01-14
Hacker Newsの意見
  • Metabrainzは本当に素晴らしい公益データベース
    以前、この件についてEFFのブログ記事を書いたことがある
    Metabrainzのような公共データはAIボットに持っていかれても構わないが、今のような非効率なやり方でスクレイピングされるのが問題だ
    結局は調整の失敗の問題だ。Metabrainzはボットの善意を前提にしているが、ボット側はサイトがデータを隠していると考えている
    「APIを叩くのはやめて、ここにあるgzipped tarファイルをまとめて取っていけ」と言っても信じない
    むしろtorrentファイルで提供した方が、ボット同士でデータをうまく共有するようになるかもしれない

    • 私もAIスクレイパーのせいで自分のサイトtvnfo.comを閉じた
      2016年から公開していたが、リソース消費が大きすぎて、今は支援者限定で運営している
      月60ドルの趣味プロジェクトなので維持が厳しい。今後支援が増えれば、ボット防御ソリューションを導入して再公開するかもしれない
      でも、こういう問題が自分だけではないと知って驚いた。結局、インターネットはますます閉じていく方向に向かっているように思える
    • robots.txtで「ここからtarファイルを取っていけ」と知らせる方法があるのだろうか
      標準にそういう機能があるのか分からない
    • ボットがtorrentを使うなら、共有統計の操作も可能だ
      以前、自分もプライベートトラッカーで追放されないようにアップロード比率を水増ししたことがある
    • ボットがサイトを敵対的な存在とみなしているというのは深刻な問題だ
      サイト所有者の意思を無視するのは誤ったアプローチだ
    • 実際、ほとんどの「AIスクレイパー」は単なる再帰クローラースクリプト
      本物のAIがページを読んで判断しているのではなく、リンクをたどって文書を拾っていく自動化コードにすぎない
  • AIが自由なWebエコシステムを破壊している
    私のWebホストは、突然急増したボットトラフィックのせいでアカウントを停止した
    結局、新しいホストへ移ったが、個人運営者にはこういう状況で希望がない
    AI企業は無限の資源を持っていて、被害には関心がない
    冷笑的に見れば、これは意図された戦略なのかもしれない――無料サイトを消し去り、人々が最終的にAIモデル経由でしか情報を得られないようにするためだ

    • AI要約サービスが独立Webのトラフィックの半分以上を奪っている
      情報共有の経済性が崩れている
      結局、少数の企業が価値を独占し、その後で**エンシッティフィケーション(enshittification)**が始まるだろう
  • 子どもの学校のPTAサイトを管理しているが、OpenAIのボットがイベントカレンダーを無作為にクロールしていた
    西暦1000年から3000年までリクエストが続いた
    User-Agentをブロックしたら、4時間ほどしてようやく止まった

  • 私はGoogle Cloudのe2-micro VPSで静的Webサイトとcgitインスタンスを運用している
    160日間でOpenAIとClaudeから850万件を超えるリクエストを受けた
    そのためlighttpdでUser-Agentにclaude|openaiが含まれていれば403を返すよう設定し、nftablesでレート制限をかけた

    • こういうボットはまだ「良心的」な部類だ
      本当の問題は住宅用プロキシを使ったボットネットだ。普通のブラウザを装って入ってくる
    • OpenAIは公式ボットIPリストを公開しているが、Anthropicはそうしていない
    • 興味深いことに、私のGitHubブログにはこうしたスクレイピングがまったくない
      Microsoftが防いでいるのか、それとも私のブログがボットにとって興味のないレベルなのかと思う
  • Cloudflareは今やAIスクレイパー検知サービスを提供している
    検知したボットを無限ループのAI生成ページへ誘導する

    • ただし、こうするにはすべてのトラフィックをCloudflare経由にしなければならない
      結局、第三者が自分のコンテンツへのアクセス権を決めることになるので不快だ
    • CloudflareはVPNや珍しいブラウザの利用者にアクセス問題をしばしば引き起こす
      私も不満が多くて結局外した
    • 「TLS追加・除去サービス」としては適切ではないと思う
    • 関連するアイデアとしてPoison Fountainプロジェクトがある
    • Cloudflareが十分な数のサイトを押さえれば、AI企業にキャッシュアクセス料を課すこともできるかもしれない
  • SQLiteチームも似た問題に直面した
    創始者Richard Hippは「リポジトリ全体を複製すればいいのに、わざわざ他人に迷惑をかけてクロールしていく」として、**『利己的な行為』**を批判していた
    関連フォーラム投稿参照

    • ただ、ある人は「悪意的だなんて、あまりに大げさな表現だ」と反論していた
  • 時間がたつほど、あらゆるクロールをCommon Crawlのような共通チャネルに統合すべきだと思うようになっている
    サーバー負荷を減らしつつ、Webの開放性とスクレイピング可能性を維持しなければならない
    たとえば/well-known/の下にタイムスタンプ付きデータダンプリンクを置く形で標準化できるかもしれない

    • MetaBrainzはすでにこの方式を使っている――DB全体をtarballで提供している
      私も1時間ほどかけてダウンロードし、その後はローカルクエリで済ませた
      でも多くの人は今でもスクレイピングの方が簡単だからダンプを使わない
    • 私は著作権制度の改革が必要だと思う
      一定期間後にデータを「国家データセット」に寄付すれば、AI学習用に活用し、その収益を著作権者に分配する仕組みを提案したい
      こうすればAI開発者、著作権者、一般大衆の全員が利益を得られる
    • 私も個人的にTampermonkeyスクリプトで小規模なスクレイピングをしている
      AIを使ってコードを生成し、VPSの価格リストのようなものを自動収集している
      以前はlowendtalkの全ヘッドラインを拾ってきて、LLM分析用データセットにしたこともある
    • /llms.txtのような標準ファイルを作り、LLMに必要な純粋なテキストデータだけを提供するのも一案だと思う
      URL、住所、電話番号などは取り除き、<item><subitem>のような最小限のマークアップだけを残すイメージだ
      ただし、多くのサイトが形式だけ整えた空ファイルを置く可能性がある
    • 実のところ、これは技術的問題ではなく経済構造の問題
      巨大資本が短期利益のためにWebを壊している
      それでも最終的には適応と均衡が生まれると信じている
  • 最近はAIスクレイパーだけでなく、ユーザー自身が要約リクエストを通じて間接的にスクレイピングしている
    たとえばFirefoxはリンクをクリックしなくても要約プレビューを提供する
    関連画像

    • この機能では、ローカルでllama.cpp(wllama)上で動くSmolLM2-360Mモデルが要約を生成している
      結局ブラウザが直接ページを取得して要約するので、サイト側から見れば同じリクエストに見える
      Mozilla公式説明参照
    • 問題は3つある
      1. AI企業の非倫理的なクローリング
      2. ユーザーのエージェントベースの要約リクエスト
      3. こうしたエージェントが人間より非効率なのに、はるかに速いこと
    • ただし、ユーザーが「訓練された」から使っているのではなく、単純にLLMが本当によく機能するから使っているのだ
  • 最近のスクレイパーは住宅用IPプールを使って検知を回避している

    • こうしたIPプールを提供するISPが新しい収益モデルを作ったのではないかと疑っている
    • しかも今では実際のブラウザを動かすボットも多く、CloudflareのCAPTCHAも通過する
      こういう状況で、防御策がどれだけ長く有効なのか分からない