DuckDBの使い方(DuckDB Python + Jupyter Lab)
(zzsza.github.io)最近、OLAPのオープンソースの中で注目を集めているDuckDBの使い方をまとめた記事です。
Jupyter Labでどのように活用できるかという内容も含め、印象的だったExtensionも追加してあります。
S3上のParquetファイルを直接クエリして手軽に使え、Athenaは十分に置き換えられそうです。Pandasを使う領域もすべて置き換え可能だと思います。
目次
- DuckDB紹介、DuckDBとは?
- BIG DATA IS DEAD
- DuckDBの目標 & DuckDBの長所
-
- Simple
-
- Portable
-
- Feature Rich
-
- Fast
-
- Extensible
-
- Free
-
- Thorough Testing
- DuckDBの性能ベンチマーク
- DuckDBのインストール
-
- DuckDBを実行する
- 簡単な実行(DuckDB Python)
- Data Load
- jupysqlを使ってより便利に実行する
- SQL文法
- Secrets Manager
- DuckDB Extension
- bigquery
- h3
- pg_duckdb
- vss(Vector Similarity Search)
- DuckDBの活用方法
- BigQueryで使う例
- ローカルデータウェアハウスのように使う(Pandasの代替)
- 必要なときに使う軽量な分析エンジン用途
- ETL、ELTパイプラインのTransform段階で使用
- GCS上のParquetをクエリする
- まとめ
- 参考資料
2件のコメント
良い資料をありがとうございます。
ご覧いただきありがとうございます!!