Webクローリング時にBot検査を回避する方法
(piprogramming.org)Seleniumを基準にしていますが、他の環境にも適用可能です
-
Navigator.Webdriverフラグを削除 -
ChromeDriver / GeckoDriver から特定の文字列を削除
-
解像度、User-Agent などを変更
-
実際のURLフローを使用。見えないリンクへのアクセスを回避
-
Proxyを利用してIPを変更
-
ランダムな遅延値を使用
-
ヘッドレスブラウザを使用しないこと(Notification Permission をチェックして確認)
2件のコメント
1番の場合、Puppeteer では true/false の設定だけだとボットとして検出される場所があるので
いっそ以下のようにプロパティを削除したほうがよいとのこと
それはいい指摘ですね :) コードを置き換えました