2021年のWebスクレイピングの現状
(mihaisplace.blog)-
Webスクレイピングとは?
-
Webスクレイピング向けの主要フレームワークは?
→ Python : Scrapy, Beautiful Soup, MechanicalSoup
→ JS : Cheerio, Puppeteer, Apify SDK
→ Java : Jaunt, jsoup
→ Ruby : Kimurai
→ PHP : Goutte
- 企業レベル向けの有料Webスクレイピングフレームワーク
→ Scraper API : プロキシローテーション、CAPTCHA解除、アンチボットチェックをサポート
→ Apify : コミュニティによって開発された数千のプラグインを提供
→ Parsehub : デスクトップアプリを使ったポイント&クリック方式のノーコードツール
→ Diffbot : Webで収集した企業・小売・ニュース・掲示板・イベントなどのデータから、ビッグデータ/機械学習によるデータ抽出をサポート
→ Octoparse : Parsehubのようなポイント&クリック方式。IPローテーションや正規表現ツールを使ったデータ整形、大規模スクレイピングなどをサポート
→ ScrapingBee : 複雑な機能を提供するノーコードツール
-
PythonのWebスクレイピング例 : Beautiful Soupを利用
-
JavaScript(Node.js)の例 : PuppeteerでGoogle検索
-
WebスクレイピングのDo's and Don'ts
→ 1つのIP接続だけを利用すること
→ ピークタイムではない時間帯にクロールすること
→ サイトのToSを守ること
→ robots.txt のルールを順守
→ コンテンツを別の形で見せるためにクロールするのであれば、単なるコピーではなくユニークなソリューションであること
→ GDPR / CCPA のルールを守ること
1件のコメント
文末にある「Web scraping is now legal」という記事も参考にしてください。
LinkedInが分析会社HiQにクローリングをできないようにしてほしいと求めたものの、米国の裁判所に退けられた事例です。
https://medium.com/@tjwaterman99/…