2022年時点で、最高のWebスクレイピングツールは何ですか?
(news.ycombinator.com)HNの質問に対する回答
- Playwright : JSの実行が必要なWebページが増えているので、ブラウザ自動化ツールが便利
- Beautiful Soup : さまざまなスクレイピングアプリを作りやすいPythonパッケージ
- シェルで cURL + pup(マークアップ)/cskit(CSV)/jq(JSON)/psql(DB)
- Browserflow : Webブラウザベースの作業自動化ツール
- curl-impersonate : ブラウザのようにWebサイトを取得するフォーク版
- Helium : より使いやすい Selenium-Python
- undetected_chromedriver : CloudFlare のボットチェックを通過するカスタム Selenium Chromedriver
- estela : Kubernetes で動作する elastic web scraping cluster
6件のコメント
puppeteerチームがmsに吸収され、そのままplaywrightになったと聞いています
Playwright や Scrapy のようなツールは、開発元がしっかりメンテナンスしてくれるので良いと思います。
個人的には
scrapy-playwrightプラグインをよく使っています。Puppeteerが見当たらないところを見ると、みんなかなりPlaywrightに乗り換えたようですね
コメントでも、実際に使ってみた人たちの多くは Playwright が良いと話しています。
Playwrightに一票です
Cloudflare の HTMLRewriter をよく使います