2021年のWebスクレイピングの現状

(mihaisplace.blog)

26 ポイント投稿者 xguru 2021-10-05 | 1件のコメント | WhatsAppで共有

→ Python : Scrapy, Beautiful Soup, MechanicalSoup

→ JS : Cheerio, Puppeteer, Apify SDK

→ Java : Jaunt, jsoup

→ Ruby : Kimurai

→ PHP : Goutte

→ Scraper API : プロキシローテーション、CAPTCHA解除、アンチボットチェックをサポート

→ Apify : コミュニティによって開発された数千のプラグインを提供

→ Parsehub : デスクトップアプリを使ったポイント＆クリック方式のノーコードツール

→ Diffbot : Webで収集した企業・小売・ニュース・掲示板・イベントなどのデータから、ビッグデータ／機械学習によるデータ抽出をサポート

→ Octoparse : Parsehubのようなポイント＆クリック方式。IPローテーションや正規表現ツールを使ったデータ整形、大規模スクレイピングなどをサポート

→ ScrapingBee : 複雑な機能を提供するノーコードツール

→ 1つのIP接続だけを利用すること

→ ピークタイムではない時間帯にクロールすること

→ サイトのToSを守ること

→ robots.txt のルールを順守

→ コンテンツを別の形で見せるためにクロールするのであれば、単なるコピーではなくユニークなソリューションであること

→ GDPR / CCPA のルールを守ること

1件のコメント

xguru 2021-10-05

文末にある「Web scraping is now legal」という記事も参考にしてください。

LinkedInが分析会社HiQにクローリングをできないようにしてほしいと求めたものの、米国の裁判所に退けられた事例です。