- さまざまなソースからデータを収集し、SQLおよびPythonを使ったデータ変換、データ品質チェックを追加して、エンドツーエンドのフローを構築する統合フレームワーク
- dbt + Airbyte + Great Expectations を一つにまとめて実装したものに近い
- Goで書かれたCLIと連携するVS Code向け拡張機能で構成。VS Code内でパイプラインの作成、管理、デプロイが可能
- ingestrでデータ収集
- ingestrはPythonで書かれた別のオープンソースCLIで、データソース間の簡単なコピーを扱う
- 対応: AWS Athena, Databricks, DuckDB, Google BigQuery, Microsoft SQL Server, Postgres, Redshift, Snowflake, Synapse, Pager
- SQLとPythonを使ったデータ変換(dbtに近い)
uvを使ったPython環境管理。分離して実行
- データ品質チェックを内蔵
- Jinjaテンプレート対応
- dry-run対応により、パイプラインを最初から最後まで検証可能
- ローカルマシン、EC2インスタンス、およびGitHub Actionsで実行可能
- 環境変数を使ったSecretインジェクション
- 多様なテーブル/ビューのMaterialization戦略をサポート。incrementalテーブル
まだコメントはありません。