12 ポイント 投稿者 xguru 2024-12-27 | まだコメントはありません。 | WhatsAppで共有
  • さまざまなソースからデータを収集し、SQLおよびPythonを使ったデータ変換、データ品質チェックを追加して、エンドツーエンドのフローを構築する統合フレームワーク
    • dbt + Airbyte + Great Expectations を一つにまとめて実装したものに近い
  • Goで書かれたCLIと連携するVS Code向け拡張機能で構成。VS Code内でパイプラインの作成、管理、デプロイが可能
  • ingestrでデータ収集
    • ingestrはPythonで書かれた別のオープンソースCLIで、データソース間の簡単なコピーを扱う
    • 対応: AWS Athena, Databricks, DuckDB, Google BigQuery, Microsoft SQL Server, Postgres, Redshift, Snowflake, Synapse, Pager
  • SQLとPythonを使ったデータ変換(dbtに近い)
  • uvを使ったPython環境管理。分離して実行
  • データ品質チェックを内蔵
  • Jinjaテンプレート対応
  • dry-run対応により、パイプラインを最初から最後まで検証可能
  • ローカルマシン、EC2インスタンス、およびGitHub Actionsで実行可能
  • 環境変数を使ったSecretインジェクション
  • 多様なテーブル/ビューのMaterialization戦略をサポート。incrementalテーブル

まだコメントはありません。

まだコメントはありません。