26 ポイント 投稿者 xguru 2021-10-05 | 1件のコメント | WhatsAppで共有
  • Webスクレイピングとは?

  • Webスクレイピング向けの主要フレームワークは?

→ Python : Scrapy, Beautiful Soup, MechanicalSoup

→ JS : Cheerio, Puppeteer, Apify SDK

→ Java : Jaunt, jsoup

→ Ruby : Kimurai

→ PHP : Goutte

  • 企業レベル向けの有料Webスクレイピングフレームワーク

→ Scraper API : プロキシローテーション、CAPTCHA解除、アンチボットチェックをサポート

→ Apify : コミュニティによって開発された数千のプラグインを提供

→ Parsehub : デスクトップアプリを使ったポイント&クリック方式のノーコードツール

→ Diffbot : Webで収集した企業・小売・ニュース・掲示板・イベントなどのデータから、ビッグデータ/機械学習によるデータ抽出をサポート

→ Octoparse : Parsehubのようなポイント&クリック方式。IPローテーションや正規表現ツールを使ったデータ整形、大規模スクレイピングなどをサポート

→ ScrapingBee : 複雑な機能を提供するノーコードツール

  • PythonのWebスクレイピング例 : Beautiful Soupを利用

  • JavaScript(Node.js)の例 : PuppeteerでGoogle検索

  • WebスクレイピングのDo's and Don'ts

→ 1つのIP接続だけを利用すること

→ ピークタイムではない時間帯にクロールすること

→ サイトのToSを守ること

→ robots.txt のルールを順守

→ コンテンツを別の形で見せるためにクロールするのであれば、単なるコピーではなくユニークなソリューションであること

→ GDPR / CCPA のルールを守ること

1件のコメント

 
xguru 2021-10-05

文末にある「Web scraping is now legal」という記事も参考にしてください。

LinkedInが分析会社HiQにクローリングをできないようにしてほしいと求めたものの、米国の裁判所に退けられた事例です。

https://medium.com/@tjwaterman99/…