Zingg - データ統合のためのスケーラブルなファジーマッチングOSS
(github.com)- 分析エンジニアがさまざまなデータサイロを連携し、統合ビューを作成可能
→ Data UnificationのためのノーコードMLツール
- なぜ必要か?
→ 実データでは、1人の顧客に対して複数のレコードが存在する
→ 各レコードが単一/複数システムに分散しており、データが大きくなると顧客分析が難しくなる
→ ELTのTには多くの労力がかかるが、dbtのようなツールがこれをうまく処理している
→ 高速かつスケーラブルな方法で、主要なビジネスオブジェクトについて抽出またはロード前に「Single Source of Truthを作ること」が必要
- 有用なケース
→ 複数システムに存在する顧客の統合された信頼できるビューの作成
→ AML/KYCなどにおける大規模なエンティティ確認
→ 重複排除とデータ品質
→ データサイロの統合
→ 外部ソースデータのEnrichment
- 対応ソース
→ Snowflake, Cassandra, S3, Azure, Elastic, 主要RDMBSおよびSpark対応データソース
→ Parquet, Avro, JSON, XLSX, CSV, TSVなどのファイルにも対応
まだコメントはありません。