8 ポイント 投稿者 xguru 2022-06-30 | 1件のコメント | WhatsAppで共有
  • Web ARChive(.warc)ファイルをカラム指向のApache Parquetフォーマットに変換
  • DuckDBにParquetを読み込んで手軽にクエリ可能
  • Rustオープンソース

1件のコメント

 
xguru 2022-06-30

DuckDB - Embedded OLAP DBオープンソース

少し前に投稿された WarcDB - Web crawl data as SQLite DB と似ていますね。
ただ、Parquet を利用するインフラがすでにある環境では、こちらのほうが使いやすそうです