1 ポイント 投稿者 GN⁺ 2026-01-19 | 1件のコメント | WhatsAppで共有
  • LWN.net が、数万件のアドレスから発生する 大規模なスクレイピングベースのDDoS攻撃 を受けており、サイトの応答速度が低下している
  • Jonathan Corbet は、AI関連スクレイパー からサイトを防御しなければならない状況に触れ、読者のアクセスに障壁を設けたくはないが、必要になるかもしれないと述べた
  • コミュニティでは、Bright Data などの商用データ収集事業者が攻撃の背後にいる可能性が言及され、複数のユーザーが 同様のトラフィック急増 を報告した
  • 一部では、RSS購読、静的サイト生成、LLMターピット(tarpit) などで対処しており、Azure・Google・AliCloud など大手クラウドのIPから攻撃が発生した事例も共有された
  • 今回の事態は、AIによるデータ収集がWebエコシステムの安定性と創作者の持続可能性に与える被害 を示す事例として注目されている

LWN.netに対する大規模スクレイパー攻撃

  • Jonathan Corbet は、LWN.net がこれまでで 最も深刻なスクレイパー攻撃 を受けていると明らかにした

    • 攻撃は 数万のIPアドレス を動員したDDoSの形を取り、サイトの応答性が低下している
    • 彼は「AI関連スクレイパーからLWNを防御するのは、やりたくない仕事だ」と述べ、読者のアクセスに障壁を設ける措置は望まないが、必要になるかもしれないと言及した
  • Corbet は攻撃主体を特定できないとしつつ、Bright Data または類似の競合企業 が関与している可能性に触れた

    • CPU負荷が深刻になることがあり、サーバーの拡張は可能だが、「苦労して書いた記事をそういう人たちに食わせるために費用を払うのは腹立たしい」と表現した

コミュニティの反応と提案

  • Tristan Colgate-McFarlane は、検索エンジンが盗用コンテンツを優先表示 することで、元の著作者からトラフィックと広告収益を奪っていると指摘した
  • 複数のユーザーが AIスクレイパーのトラフィック急増 を経験したと報告
    • Light Owl は、自身のサイトのトラフィックが通常の20倍に増えたと述べた
    • Ben Tasker は、LLMターピット(tarpit) というボット用の罠で一部のリクエストを遮断していると説明した
  • 一部では、Azure、Google、AliCloud など大手クラウドのIPから攻撃が発生したと報告
    • Dec、mx alex tax1a、David Gerard らがそれぞれ MSFT・Google・Ali のIP帯域を遮断 した事例を共有した

対応策の議論

  • Riku Voipio は、購読者専用サーバー(subscriber.lwn.net) の利用を提案したが、Corbet は新規購読者の流入が難しくなる可能性があると答えた
  • Jani Nikula は、登録ユーザー専用アクセス を提案したが、Corbet はすでに ボットがアカウントを作成する問題 があり、実効性は低いと述べた
  • trademark は、コンテンツのシャーディング(sharding) でキャッシュ効率を高めようと提案したが、Corbet はキャッシュが問題ではないと答えた

他サイト運営者たちの経験共有

  • 複数の運営者が 同様の攻撃パターン を報告
    • Dec は、PHPの脆弱性スキャンと wp-admin ログイン試行が MSFT のIPから発生したと述べた
    • David Gerard は、RationalWiki で JavaScriptベースのCookie検証 により対処しているが、Googlebot まで遮断される副作用があると説明した
    • Catherine(whitequark) は、404レスポンスの処理だけでサーバー負荷を緩和 していると述べた

コミュニティ内の認識

  • 一部では「Webは本当に壊れつつある」と表現し、AIスクレイピングがWebエコシステムの崩壊を加速させている と批判した
  • Ayush Agarwal は、カーネルコミュニティ内でも LLMの利用が小規模サイトに被害を与える現実 を認識すべきだと指摘した
  • Martin Roukala は「関連性が高すぎたせいで起きた問題だ」と自嘲気味に述べたが、Jani Nikula は「スクレイパーはそんなことを気にしない」と答えた

1件のコメント

 
GN⁺ 2026-01-19
Hacker Newsの意見
  • こういう攻撃的なスクレイパーを誰が運用しているのか気になる
    AI研究所ならデータ収集のために大量のサイトを同時にクロールするほうが効率的なのだろうが、評判リスクを負ってまで人気サイトに過負荷をかける理由がわからない

    • こういうケースを見ると、技術力や配慮が不足していることが多い
      おそらくAIが作ったスクレイパーをろくにテストせず、そのままデプロイした可能性が高い
      しかも彼らは residential IP provider を通じて身元を隠すので、評判リスクもない
      たとえOpenAIやAnthropicのような大企業だったとしても、人々はそのまま受け流してしまいそうだ
    • 当初はOpenAIやAnthropicのような米国の大手企業が疑われていたが、実際には個人AIエージェントがWebページをクロールするケースがますます増えている
      Claude Coworkのようなツールでユーザー自身がクローラーを作れるので、自分もNASAのサイトをクロールして404ページを爆撃し、一時的にブロックされたことがある
      結局、善意のユーザーですらWebトラフィックのパターンを変えてしまっている
      関連統計は Cloudflare AI Insights で見られる
    • 自分の個人サイトもしばしばスクレイパーで麻痺する
      OpenAIのGPTBot以外はほとんど聞いたこともない小さな会社で、中にはUser-Agentすら隠しているものもあった
      すでにCommon Crawlにあるデータなのに、なぜわざわざ取りに来るのか理解できない
    • おそらく誰かがClaude Codeに「LWN全体をアーカイブしろ」と指示したのだろう
    • LWNには複数のメーリングリストのアーカイブが含まれているので、それが理由かもしれない
  • AIがオープンソースコードをまるで自分たちが書いたかのように再販売し、ライセンス回避をしているのが大きな問題だ
    コードだけでなく、ほかのコンテンツも同様にスクレイピングされている

    • 自分は古いDOSゲーム関連のプロジェクトをやっていたが、Claudeが自分のコードをほとんどそのまま取り込み、別のライセンスで再生産していた
      変数名を少し変えただけで、構造は同じだった
      こんなことを会社でやったら即解雇ものだ
      それなのにAIがやると「フェアユース」だと言って道徳的正当性まで主張するのはおかしい
    • 結局、知的財産ロンダリングが新しいマネーロンダリングのようなものになってしまっている
    • ただし、AIがそうしてよいと法的に判断されたことはない。そう主張しているのはAI業界だけだ
  • こうしたスクレイピングは、単なるAI向けデータ収集ではないのかもしれない
    FOSSサイトが継続的に攻撃されているが、採算が合わない
    もしかすると技術業界やオープンソースコミュニティを攪乱しようという意図があるのかもしれない

    • ニッチなゲーム改造コミュニティも同じ攻撃を受けていた
      非営利プロジェクトなのにDDOS級のトラフィックが押し寄せ、結局ログインの壁を設けるしかなかった
    • おそらくデータサイエンティストの多くは、AIで作ったスクレイパーがサイトをどれだけ頻繁に叩くか気にしていないのだろう
    • 自分が見ていたいくつかのフォーラムも、結局ログインなしでは読めなくなった
    • 自分も小規模なブラウザーゲームWikiを運営しているが、ClaudeやOpenAIを含む大量のボットが攻撃的にクロールしてくる
      その大半は住宅用IPを使っていて、単に「インターネット上のものは全部自分のものだ」と考える人たちが問題の根本にいるように思える
    • 地域ベースの趣味コミュニティなら、ブロックをもっと思い切ってやれるのでまだ助かる
  • 自分のブログはつまらないので、スクレイピング問題には遭っていない

    • でもそのブログのおかげでGit Bragというものを初めて知った。かなり面白い
    • LLMを退屈させられるなら、それはむしろ大したことだ
  • 「何万ものアドレスが関与したDDOS攻撃」という表現どおり、攻撃は極端に分散している
    小さなサイトでも数千のIPからトラフィックが殺到する

    • こうした攻撃の多くはresidential proxyサービス経由で行われる
      BrightDataが代表例で、データセンターIPより高価だがブロックしにくい
    • git.ardour.org でも100万を超えるIPから無意味なgitスクレイピングを受けている
    • もっとも好意的な解釈は、AI企業がCommonCrawlのような代替リソースを知らずに直接クロールしているというものだ
      最悪の解釈は、単に反社会的な開発者が何も考えずに作ったボットだということ
    • こういう攻撃を「Distributed Intelligence Logic Denial Of Service (DILDOS)」と呼びたくなる
  • Residential proxy は事実上マルウェアとして扱うべきだ
    アンチウイルス定義に追加し、アプリストアからも排除すべきだ

  • これが本当にAI学習用のスクレイピングなのか気になる
    通常のDDOSと区別がつかないなら、そう断定はできないのではないかと思う

    • ただ、LWNは30年近く運営されてきたのに、AIクローリング以前にはDDOSがなかった
  • 今は攻撃が止まったようだ
    メインページも正常に読み込まれる

  • 自分はブログスクレイパーを防ぐため、JavaScriptメソッドのオーバーライドでページ内容を空にしている
    Shadow DOMで要素を隠せば、さらに難しくできる
    ただしこの方法は、PlaywrightやSeleniumのようなテストツールや検索エンジンのインデックス作成に問題を起こす

    • ただ、このやり方が実際に効果があったのかは確信が持てない
    • 関数がゴミデータを生成するようにして、ボットを混乱させるのも面白いアイデアだ
  • ある人は「AI企業が競合サイトをDDOSで麻痺させ、データ独占を狙っている」と主張している

    • でもそれは陰謀論っぽく聞こえる
    • 一種の『はしごを外す』戦略なのかもしれない
    • ただ、LWNはすでに古いニュースレターサイトで、価値のあるデータはほとんどない
      こういうサイトをクロールしてもAIに得るものはなく、むしろ被害妄想が過剰に見える