29 ポイント 投稿者 xguru 2021-11-29 | 12件のコメント | WhatsAppで共有
<p>- もしGoogle検索を数百万件単位で実行するサービスを作るなら、ブロックされない代替手段が必要になる<br /> - いちばん簡単なのは有料プロキシを使うことだが、かなり高価 <br /> → そこで筆者が試してみたことを詳しく説明した面白い記事<br /> <br /> - 最初はAWS Lambda + Puppeteerを使用 <br /> → AWSは世界16リージョンを提供しており、Lambdaを3回実行すると新しいIPが割り当てられる <br /> → 同時に1000個のLambdaを実行すると、約250個のパブリックIPを使うことになる<br /> → 16リージョン * 250 なら4000個のIPアドレスで、これなら週あたり数百万件規模のGoogle検索を行うには十分 <br /> → GCPでも試したが、面白いことにGoogleは自社クラウドのIPをより積極的にブロックする(AWSと比べて)<br /> → 2019〜2020年ごろの話で、今は変わっているかもしれない <br /> <br /> - この方法はGoogle / Bing / Amazonなどをスクレイピングするには使えるが、限界がある<br /> → DataDome、Akamai、Impervaのようなアンチボット企業の仕組みを使っている場合は適用できない <br /> → 非常に多様な方法でブラウザフィンガープリンティングを行い、ボットかどうかを識別する<br /> → Google Picasso、Font/TLS/WebGL Fingerprinting など<br /> → 実際、ほとんどの大規模スクレイピングサービスはクラウド + Dockerコンテナを使っているため、識別しやすい<br /> <br /> - 検知されにくく、スケーラブルなスクレイピングインフラ <br /> → スクレイピングを成功させるための2つの原則 <br /> 1. ブラウザ設定をごまかさないこと <br /> 2. 最も重要なのは、「誰にも気づかれない場合にのみ」ブラウザ設定をごまかすこと<br /> → そのためには、結局のところ「実際のデバイスを使う」のが最善という結論<br /> ⇨ 安価なAndroid端末500台を複数メーカーから購入し、安いデータプランを契約<br /> ⇨ 複数の都市に分散配置(アンテナの近くに)<br /> ⇨ DeviceFarmer / stf のようなオープンソースを活用して端末を同時に制御 <br /> ⇨ Android Goのような軽量OSを入れ、5分ごとに機内モードに切り替えて常に新しいIPアドレスを取得<br /> ⇨ "4G carrier grade NAT" : 4GキャリアグレードNATはIPv4アドレス枯渇を防ぐために考案された方式で、数十万人がIPを共有するためブロック不可能<br /> → Android端末を500台買う必要があり、設置場所も必要で、ハードウェア保守もしなければならないなど面倒な点が多い <br /> <br /> - 改善 : Androidをエミュレート <br /> → Android端末を買う代わりに、Android-X8、Bluestacks、Android Studio Emulatorなどを使うとどうか?<br /> → Proxidize は4Gモバイルプロキシを作れるようにする<br /> → サーバー1台に50個の4Gドングルを設置<br /> → 各サーバーで50〜100台のAndroid端末をエミュレート <br /> → このステーションを5都市に設置 <br /> → 簡単なコマンドでこれらのステーションを管理 </p>

12件のコメント

 
xguru 2021-12-06
<p>- ボット検知を回避する: ブロックされずにWebスクレイピングする方法 https://ja.news.hada.io/topic?id=5304<br /> <br /> プロキシ、スクレイピングサービス、アンチボットソフトウェアなどは、上記の記事によく整理されています。</p>
 
eajrezz 2021-12-06
<p>すごいハックですね!</p>
 
joone 2021-12-04
<p>https://www.diffbot.com/products/crawl/<br /> <br /> クロールしてウェブページのスクレイピングを行ってくれるサービスもあります。スクレイピングしたデータは不要な情報を除外して、JSONとして保存しています。</p>
 
benjamin 2021-11-29
<p>あっけにとられる…</p>
 
xguru 2021-11-29
<p>まったく別の話ですが.. <br /> <br /> Google検索をAPI化して販売している https://serpapi.com/ のようなところも.. あります。 <br /> でもここはNaver検索もAPI化して一緒に販売しています(笑)<br /> https://serpapi.com/naver-search-api<br /> <br /> 月3万回検索で$250という驚きの?価格</p>
 
v08zbv8fvlkjasdflkj 2021-11-29
<p>高すぎて驚くレベルなんですか? ちょっと感覚がつかめなくて。</p>
 
xguru 2021-11-29
<p>はい、かなり高価ですね。有料プロキシを使う場合などと比べればですが。<br /> APIなのでブロックの懸念がなく、便利ではあります</p>
 
hentol 2021-11-29
<p>国内基準では、ある程度データが提供される0円の格安SIM料金プランが思い浮かびますが…<br /> 大量加入が難しいとなると、これも厳しそうですね。</p>
 
xguru 2021-11-29
<p>Google Fi の場合は、1回線につき追加のデータSIMを4枚まで使えるので、こういうのも一つの方法ではありそうです</p>
 
nallwhy 2021-11-29
<p>以前、naver の何かをスクレイピングしたとき<br /> AWS Lambda ではだめで GCP Functions ではできた記憶があるのですが、<br /> IP range が公開されているからだと思っていたものの、そうでもないみたいですね。</p>
 
honore 2021-11-29
<p>すでに1番の方法でやっていたので、ほかにはどんな方法があるのかと思って見てみたのですが……まったく思いもよりませんでした。</p>
 
xguru 2021-11-29
<p>実際、1番の Lambda+Puppeteer もあの方式でやれば悪くなさそうですが、<br /> 最後の Proxidize の方法と比べると、おそらくスクレイピングの規模によってコスト差が出そうです。<br /> より大規模になるほど Proxidize のほうが安定するでしょうが、手軽にやるなら 1番も悪くないと思います。 <br /> <br /> 最後に紹介されていた https://proxidize.com/ は面白いですね。 <br /> 自分で 4G モバイルプロキシを作って管理できるようにするハードウェア+ソフトウェアのソリューションです。<br /> 5個のドングル版が $399 ですね。対応ユーザー国リストに韓国もあるのを見ると、利用は可能そうです。<br /> <br /> CGNAT まではいきませんが、ソフトウェアプロキシをプールで管理する Scrapoxy のようなソリューションもあります。<br /> - Scrapoxy - Webクローラー向けプロキシプール管理ツール https://ja.news.hada.io/topic?id=2308</p&gt;