WarcDB - WebクロールデータをSQLite DBとして扱う
(github.com/Florents-Tselai)- WebクローリングしたデータをSQLでクエリしやすくした、SQLite DBベースのファイルフォーマット
wgetや WebRecorder などで使われる標準的な Web ARChive(.warc)ファイルを.warcdbに import 可能sqlite-utilsコマンドをそのまま使用可能
wget --warc-file tselai "https://tselai.com"
warcdb import archive.warcdb tselai.warc.gz
// すべての response header を取得
sqlite3 archive.warcdb <<SQL
select json_extract(h.value, '$.header') as header,
json_extract(h.value, '$.value') as value
from response,
json_each(http_headers) h
SQL
まだコメントはありません。