39 ポイント 投稿者 xguru 2022-08-15 | 6件のコメント | WhatsAppで共有

HNの質問に対する回答

  • Playwright : JSの実行が必要なWebページが増えているので、ブラウザ自動化ツールが便利
  • Beautiful Soup : さまざまなスクレイピングアプリを作りやすいPythonパッケージ
  • シェルで cURL + pup(マークアップ)/cskit(CSV)/jq(JSON)/psql(DB)
  • Browserflow : Webブラウザベースの作業自動化ツール
  • curl-impersonate : ブラウザのようにWebサイトを取得するフォーク版
  • Helium : より使いやすい Selenium-Python
  • undetected_chromedriver : CloudFlare のボットチェックを通過するカスタム Selenium Chromedriver
  • estela : Kubernetes で動作する elastic web scraping cluster

6件のコメント

 
yangeok 2022-08-24

puppeteerチームがmsに吸収され、そのままplaywrightになったと聞いています

 
youth 2022-08-15

Playwright や Scrapy のようなツールは、開発元がしっかりメンテナンスしてくれるので良いと思います。
個人的には scrapy-playwright プラグインをよく使っています。

 
vwjdalsgkv 2022-08-15

Puppeteerが見当たらないところを見ると、みんなかなりPlaywrightに乗り換えたようですね

 
xguru 2022-08-16

コメントでも、実際に使ってみた人たちの多くは Playwright が良いと話しています。

 
jjpark78 2022-08-15

Playwrightに一票です

 
cometkim 2022-08-15

Cloudflare の HTMLRewriter をよく使います