Git Scraping - Webの変更をGitリポジトリに記録する
(simonwillison.net)-
変化し続けるWebサイトのデータを GitHub Actions でスクレイピングして記録し、コミットログとともに蓄積しておく
-
カリフォルニア州森林保護・防火局 から最近の CA 山火事データをスクレイピングして記録してみた例
-
XHR JSON データを
curlで取得し、jqで分離して記録するシンプルな GitHub Actions ワークフロー YML ファイルを作成して実行 -
内容が変更された場合にのみコミットするようにし、GitHub の Cron 設定で1時間に3回ほど実行
-
作者は以前、ハリケーン情報やその他の公共サービスなどにも適用した記録をすべて公開したことがある
1件のコメント
国内の政府機関のウェブサイトは、API化やデータ化されていないことが多いので、
こういう方法もまた別の試みになりそうですね。