24時間で10億ページをクロールした、2025年版大規模クローラー構築記

(andrewkchan.dev)

58 ポイント投稿者 GN⁺ 2025-07-23 | 3件のコメント | WhatsAppで共有

問題定義

24時間以内に10億ページをクロールするという目標を設定
予算は数百ドル（最終的に約462ドル）で、2012年の事例と同程度に合わせた
HTMLのみを収集し、JavaScriptは実行せず <a> リンクだけを抽出
**Politeness（礼儀あるクロール）**を重視し、robots.txtの順守、User Agent情報の明記、要請時のドメイン除外、人気上位100万ドメインのみを対象、同一ドメインに70秒待機などを適用
耐障害性を確保し、ノード障害時の再起動や一部データ消失を織り込み済みとするサンプルベースのアプローチを採用

**従来のシステム設計面接スタイル（機能ごとに分散）**とは異なり、各ノードがすべての機能（クロール状態、パース、フェッチ、保存など）を自前で処理する構成を選択
12ノードを使用し、各ノードは i7i.4xlarge（16 vCPU、128GB RAM、10Gbps、3750GBストレージ）インスタンスを採用
各ノードは1つのRedis、9つのfetcher、6つのparserプロセスで構成
Redisにはドメイン別フロンティア、fetch queue、訪問済みURL、Bloom filter、robots.txt、パースキューなどを保存
Fetcher: ドメインごとにキューから取り出してURLをフェッチし、asyncioで6000〜7000の同時処理を実行、主なボトルネックはCPU
Parser: 80個のasyncワーカーでHTMLをパースしリンクを抽出、CPU中心の処理
ストレージ: S3ではなくインスタンスのローカルストレージを選び、大容量ページ保存コストを削減
シャーディング: ドメイン単位でノードに分配し（クロスコミュニケーションなし）、人気ドメインの偏りを解消するためシャード数を調整

HTMLパースだけでも相当数のWebページにアクセス可能であることを再確認。ただし大規模プラットフォーム（例: GitHubなど）は意味のある本文がJS内に含まれており、パースできない
今後の課題として、JSレンダリングベースの大規模クローリングのコストと手法の探究が必要
データ分析（実際に収集したページのメタ情報、アクティブ/非アクティブ比率など）も後続テーマとして挙げられている
最近はAIと組み合わせた**攻撃的クローリングが増えており、Cloudflareのpay-per-crawl**のような新たな防御策も登場するなど、Webクローリング環境は再び変化している

oninepa 2025-07-28

すごいですね..パチパチパチ...

tensun 2025-07-23

興味深いですね。よく読ませていただきました。ありがとうございます

yangeok 2025-07-23

すごいですね……。矛と盾の戦いなんでしょうか（笑）