14 ポイント 投稿者 xguru 2022-06-22 | まだコメントはありません。 | WhatsAppで共有
  • WebクローリングしたデータをSQLでクエリしやすくした、SQLite DBベースのファイルフォーマット
  • wget や WebRecorder などで使われる標準的な Web ARChive(.warc)ファイルを .warcdb に import 可能
  • sqlite-utils コマンドをそのまま使用可能
wget --warc-file tselai "https://tselai.com";  
warcdb import archive.warcdb tselai.warc.gz  
  
// すべての response header を取得   
sqlite3 archive.warcdb <<SQL  
select  json_extract(h.value, '$.header') as header,   
        json_extract(h.value, '$.value') as value  
from response,  
     json_each(http_headers) h  
SQL  

まだコメントはありません。

まだコメントはありません。