24 ポイント 投稿者 zzsza 2024-10-27 | 2件のコメント | WhatsAppで共有

最近、OLAPのオープンソースの中で注目を集めているDuckDBの使い方をまとめた記事です。

Jupyter Labでどのように活用できるかという内容も含め、印象的だったExtensionも追加してあります。

S3上のParquetファイルを直接クエリして手軽に使え、Athenaは十分に置き換えられそうです。Pandasを使う領域もすべて置き換え可能だと思います。


目次

  • DuckDB紹介、DuckDBとは?
    • BIG DATA IS DEAD
  • DuckDBの目標 & DuckDBの長所
      1. Simple
      1. Portable
      1. Feature Rich
      1. Fast
      1. Extensible
      1. Free
      1. Thorough Testing
    • DuckDBの性能ベンチマーク
    • DuckDBのインストール
  • DuckDBを実行する
    • 簡単な実行(DuckDB Python)
    • Data Load
    • jupysqlを使ってより便利に実行する
    • SQL文法
    • Secrets Manager
  • DuckDB Extension
    • bigquery
    • h3
    • pg_duckdb
    • vss(Vector Similarity Search)
  • DuckDBの活用方法
    • BigQueryで使う例
    • ローカルデータウェアハウスのように使う(Pandasの代替)
    • 必要なときに使う軽量な分析エンジン用途
    • ETL、ELTパイプラインのTransform段階で使用
    • GCS上のParquetをクエリする
  • まとめ
  • 参考資料

2件のコメント

 
nottiger 2024-10-28

良い資料をありがとうございます。

 
zzsza 2024-10-31

ご覧いただきありがとうございます!!