Zingg - データ統合のためのスケーラブルなファジーマッチングOSS

(github.com)

8 ポイント投稿者 xguru 2021-09-16 | まだコメントはありません。 | WhatsAppで共有

→ Data UnificationのためのノーコードMLツール

→ 実データでは、1人の顧客に対して複数のレコードが存在する

→ 各レコードが単一/複数システムに分散しており、データが大きくなると顧客分析が難しくなる

→ ELTのTには多くの労力がかかるが、dbtのようなツールがこれをうまく処理している

→ 高速かつスケーラブルな方法で、主要なビジネスオブジェクトについて抽出またはロード前に「Single Source of Truthを作ること」が必要

→ 複数システムに存在する顧客の統合された信頼できるビューの作成

→ AML/KYCなどにおける大規模なエンティティ確認

→ 重複排除とデータ品質

→ データサイロの統合

→ 外部ソースデータのEnrichment

→ Snowflake, Cassandra, S3, Azure, Elastic, 主要RDMBSおよびSpark対応データソース

→ Parquet, Avro, JSON, XLSX, CSV, TSVなどのファイルにも対応

関連記事