LWNがこれまでで最も深刻なスクレイパー攻撃を受けている
(social.kernel.org)- LWN.net が、数万件のアドレスから発生する 大規模なスクレイピングベースのDDoS攻撃 を受けており、サイトの応答速度が低下している
- Jonathan Corbet は、AI関連スクレイパー からサイトを防御しなければならない状況に触れ、読者のアクセスに障壁を設けたくはないが、必要になるかもしれないと述べた
- コミュニティでは、Bright Data などの商用データ収集事業者が攻撃の背後にいる可能性が言及され、複数のユーザーが 同様のトラフィック急増 を報告した
- 一部では、RSS購読、静的サイト生成、LLMターピット(tarpit) などで対処しており、Azure・Google・AliCloud など大手クラウドのIPから攻撃が発生した事例も共有された
- 今回の事態は、AIによるデータ収集がWebエコシステムの安定性と創作者の持続可能性に与える被害 を示す事例として注目されている
LWN.netに対する大規模スクレイパー攻撃
-
Jonathan Corbet は、LWN.net がこれまでで 最も深刻なスクレイパー攻撃 を受けていると明らかにした
- 攻撃は 数万のIPアドレス を動員したDDoSの形を取り、サイトの応答性が低下している
- 彼は「AI関連スクレイパーからLWNを防御するのは、やりたくない仕事だ」と述べ、読者のアクセスに障壁を設ける措置は望まないが、必要になるかもしれないと言及した
-
Corbet は攻撃主体を特定できないとしつつ、Bright Data または類似の競合企業 が関与している可能性に触れた
- CPU負荷が深刻になることがあり、サーバーの拡張は可能だが、「苦労して書いた記事をそういう人たちに食わせるために費用を払うのは腹立たしい」と表現した
コミュニティの反応と提案
- Tristan Colgate-McFarlane は、検索エンジンが盗用コンテンツを優先表示 することで、元の著作者からトラフィックと広告収益を奪っていると指摘した
- 複数のユーザーが AIスクレイパーのトラフィック急増 を経験したと報告
- Light Owl は、自身のサイトのトラフィックが通常の20倍に増えたと述べた
- Ben Tasker は、LLMターピット(tarpit) というボット用の罠で一部のリクエストを遮断していると説明した
- 一部では、Azure、Google、AliCloud など大手クラウドのIPから攻撃が発生したと報告
- Dec、mx alex tax1a、David Gerard らがそれぞれ MSFT・Google・Ali のIP帯域を遮断 した事例を共有した
対応策の議論
- Riku Voipio は、購読者専用サーバー(subscriber.lwn.net) の利用を提案したが、Corbet は新規購読者の流入が難しくなる可能性があると答えた
- Jani Nikula は、登録ユーザー専用アクセス を提案したが、Corbet はすでに ボットがアカウントを作成する問題 があり、実効性は低いと述べた
- trademark は、コンテンツのシャーディング(sharding) でキャッシュ効率を高めようと提案したが、Corbet はキャッシュが問題ではないと答えた
他サイト運営者たちの経験共有
- 複数の運営者が 同様の攻撃パターン を報告
- Dec は、PHPの脆弱性スキャンと wp-admin ログイン試行が MSFT のIPから発生したと述べた
- David Gerard は、RationalWiki で JavaScriptベースのCookie検証 により対処しているが、Googlebot まで遮断される副作用があると説明した
- Catherine(whitequark) は、404レスポンスの処理だけでサーバー負荷を緩和 していると述べた
コミュニティ内の認識
- 一部では「Webは本当に壊れつつある」と表現し、AIスクレイピングがWebエコシステムの崩壊を加速させている と批判した
- Ayush Agarwal は、カーネルコミュニティ内でも LLMの利用が小規模サイトに被害を与える現実 を認識すべきだと指摘した
- Martin Roukala は「関連性が高すぎたせいで起きた問題だ」と自嘲気味に述べたが、Jani Nikula は「スクレイパーはそんなことを気にしない」と答えた
1件のコメント
Hacker Newsの意見
こういう攻撃的なスクレイパーを誰が運用しているのか気になる
AI研究所ならデータ収集のために大量のサイトを同時にクロールするほうが効率的なのだろうが、評判リスクを負ってまで人気サイトに過負荷をかける理由がわからない
おそらくAIが作ったスクレイパーをろくにテストせず、そのままデプロイした可能性が高い
しかも彼らは
residential IP providerを通じて身元を隠すので、評判リスクもないたとえOpenAIやAnthropicのような大企業だったとしても、人々はそのまま受け流してしまいそうだ
Claude Coworkのようなツールでユーザー自身がクローラーを作れるので、自分もNASAのサイトをクロールして404ページを爆撃し、一時的にブロックされたことがある
結局、善意のユーザーですらWebトラフィックのパターンを変えてしまっている
関連統計は Cloudflare AI Insights で見られる
OpenAIのGPTBot以外はほとんど聞いたこともない小さな会社で、中にはUser-Agentすら隠しているものもあった
すでにCommon Crawlにあるデータなのに、なぜわざわざ取りに来るのか理解できない
AIがオープンソースコードをまるで自分たちが書いたかのように再販売し、ライセンス回避をしているのが大きな問題だ
コードだけでなく、ほかのコンテンツも同様にスクレイピングされている
変数名を少し変えただけで、構造は同じだった
こんなことを会社でやったら即解雇ものだ
それなのにAIがやると「フェアユース」だと言って道徳的正当性まで主張するのはおかしい
こうしたスクレイピングは、単なるAI向けデータ収集ではないのかもしれない
FOSSサイトが継続的に攻撃されているが、採算が合わない
もしかすると技術業界やオープンソースコミュニティを攪乱しようという意図があるのかもしれない
非営利プロジェクトなのにDDOS級のトラフィックが押し寄せ、結局ログインの壁を設けるしかなかった
その大半は住宅用IPを使っていて、単に「インターネット上のものは全部自分のものだ」と考える人たちが問題の根本にいるように思える
自分のブログはつまらないので、スクレイピング問題には遭っていない
「何万ものアドレスが関与したDDOS攻撃」という表現どおり、攻撃は極端に分散している
小さなサイトでも数千のIPからトラフィックが殺到する
BrightDataが代表例で、データセンターIPより高価だがブロックしにくい
最悪の解釈は、単に反社会的な開発者が何も考えずに作ったボットだということ
Residential proxy は事実上マルウェアとして扱うべきだ
アンチウイルス定義に追加し、アプリストアからも排除すべきだ
これが本当にAI学習用のスクレイピングなのか気になる
通常のDDOSと区別がつかないなら、そう断定はできないのではないかと思う
今は攻撃が止まったようだ
メインページも正常に読み込まれる
自分はブログスクレイパーを防ぐため、JavaScriptメソッドのオーバーライドでページ内容を空にしている
Shadow DOMで要素を隠せば、さらに難しくできる
ただしこの方法は、PlaywrightやSeleniumのようなテストツールや検索エンジンのインデックス作成に問題を起こす
ある人は「AI企業が競合サイトをDDOSで麻痺させ、データ独占を狙っている」と主張している
こういうサイトをクロールしてもAIに得るものはなく、むしろ被害妄想が過剰に見える