DuckDBは単に速いだけではない

xguru · 2024-06-13T10:22:01+09:00

DuckDBは単一ファイルのSQLデータベースであり、データ分析に特化している DuckDBの評価の多くは、定量的な分析に集中する傾向がある特に速度の面で、DuckDBは一般的に良好な性能を示すしかしユーザーの立場では、いったん性能が十分に満足できる水準に達すると、それ以上の高速化には大きな意味がないその代わり、使いやすさのほうが重要であり、DuckDBはこの点で強みを持つ DuckDBの使いやすさに関する利点: 開発者体験メモリより大きいデータセットを処理できるインストールと実行が容易人間工学的な使いやすさ（Ergonomics） DuckDBは、一般的な作業を簡単に処理できるよう設計されているたとえば、入力ファイルから直接テーブルを作成し、スキーマを推論できる Parquetファイルの場合は、Web上のファイルも読み取れるテーブルを事前に作成しなくてもデータをクエリできる read_parquet 関数はrelationを返すため、サブクエリとして利用できる DuckDBはPostgresで使われるSQL機能の大半をサポートしているたとえば、ウィンドウ関数は完全にサポートされているメモリより大きいデータセットの処理多くのデータツールは、データセットがコンピュータのメモリより大きくなると正常に動作しないこれは過小評価されがちな苦痛の原因になりうる一方でDuckDBは、メモリより大きいデータセットを完全にサポートしている Pandasでは、データフレームがシステムメモリの50%を超えると問題が発生することがある簡単なインストールと実行 DuckDBは単一の実行ファイル duckdb としてコンパイルされる WASMを通じて、ブラウザ上で直接DuckDBを体験できる（shell.duckdb.org） WASMベースのため、サーバーではなくブラウザですべてが実行される DuckDBをデータフレームライブラリのように使う DuckDBはPythonとよく統合されている Python内でクエリを実行し、戻り値を利用できるこれにより、段階的により大きなデータ演算を構築できる SQLの利点とデータフレームの利点の両方を得られる csvbaseによるデータ保存 csvbaseのクライアントライブラリは、fsspec APIを通じてさまざまなシステムと連携できる DuckDBも同様にcsvbaseと組み合わせて利用できる拡張性（Scalability） DuckDBは数千台のマシンへとスケールするわけではない一方、Apache Sparkは可能だが、かなりの複雑さを伴うスケールダウンも重要である DuckDBは個々のユーザーのレベルで動作し、多くの要件を必要としない要約 DuckDBは、SQLを知っているデータアナリストにとって魅力的な選択肢になりうるメモリより大きいデータを扱え、インストールも簡単で、多くの場合Sparkの優れた代替となりうる

(csvbase.com)

30 ポイント投稿者 xguru 2024-06-13 | 5件のコメント | WhatsAppで共有

DuckDBは単一ファイルのSQLデータベースであり、データ分析に特化している
- DuckDBの評価の多くは、定量的な分析に集中する傾向がある
- 特に速度の面で、DuckDBは一般的に良好な性能を示す
しかしユーザーの立場では、いったん性能が十分に満足できる水準に達すると、それ以上の高速化には大きな意味がない
- その代わり、使いやすさのほうが重要であり、DuckDBはこの点で強みを持つ
DuckDBの使いやすさに関する利点:
1. 開発者体験
2. メモリより大きいデータセットを処理できる
3. インストールと実行が容易

人間工学的な使いやすさ（Ergonomics）

DuckDBは、一般的な作業を簡単に処理できるよう設計されている
- たとえば、入力ファイルから直接テーブルを作成し、スキーマを推論できる
- Parquetファイルの場合は、Web上のファイルも読み取れる
テーブルを事前に作成しなくてもデータをクエリできる
- read_parquet 関数はrelationを返すため、サブクエリとして利用できる
DuckDBはPostgresで使われるSQL機能の大半をサポートしている
- たとえば、ウィンドウ関数は完全にサポートされている

メモリより大きいデータセットの処理

多くのデータツールは、データセットがコンピュータのメモリより大きくなると正常に動作しない
- これは過小評価されがちな苦痛の原因になりうる
一方でDuckDBは、メモリより大きいデータセットを完全にサポートしている
- Pandasでは、データフレームがシステムメモリの50%を超えると問題が発生することがある

簡単なインストールと実行

DuckDBは単一の実行ファイル duckdb としてコンパイルされる
WASMを通じて、ブラウザ上で直接DuckDBを体験できる（shell.duckdb.org）
- WASMベースのため、サーバーではなくブラウザですべてが実行される
DuckDBをデータフレームライブラリのように使う
- DuckDBはPythonとよく統合されている
- Python内でクエリを実行し、戻り値を利用できる
  - これにより、段階的により大きなデータ演算を構築できる
- SQLの利点とデータフレームの利点の両方を得られる

csvbaseによるデータ保存

csvbaseのクライアントライブラリは、fsspec APIを通じてさまざまなシステムと連携できる
- DuckDBも同様にcsvbaseと組み合わせて利用できる

拡張性（Scalability）

DuckDBは数千台のマシンへとスケールするわけではない
- 一方、Apache Sparkは可能だが、かなりの複雑さを伴う
スケールダウンも重要である
- DuckDBは個々のユーザーのレベルで動作し、多くの要件を必要としない

要約

DuckDBは、SQLを知っているデータアナリストにとって魅力的な選択肢になりうる
メモリより大きいデータを扱え、インストールも簡単で、多くの場合Sparkの優れた代替となりうる

5件のコメント

cometkim 2024-06-13

ParadeDB は最近、良い代替案を追加しました。 https://blog.paradedb.com/pages/introducing_lakehouse

silveris23 2024-06-13

特にstreamlitなどでシンプルなインタラクティブダッシュボードを作るときにとても良いです。

brainer 2024-06-13

Hugging Face Datasetsから移行する価値はありますか？

hackerwins 2024-06-13

DuckDB をベースにスプレッドシートを作ってみる実験をしています。DuckDB にはとても期待しています。

xguru 2024-06-13

DuckDB - Embedded OLAP DB オープンソース
 データがなくてもデータベースになる DuckDB
新しい jq としての DuckDB
DuckDB 1.0.0 リリース