2021年の5つのデータトレンド
(towardsdatascience.com)-
データレイクとウェアハウスの統合、Data Lakehouse
-
「モダンデータスタック」が主流に浮上:クラウドベースの主要ツール群の連携
→ Data Ingestion : Fivetran, Stitch, Hevodata
→ Data Warehouse : Snowflake, BigQuery
→ Data Lake : Amazon S3
→ Data Lake Processing : Presto, Dremio, Databricks, Starburst
→ Data Transformation : dbt, Matillion
→ Metadata Management : Atlan
→ BI Tools : Looker
- メタデータ 3.0:メタデータ管理の再誕生
→ データディスカバリー、データカタログ、データリネージ、Observability などを扱うためのツールが台頭する見込み
- 新しい職種の台頭
→ Data Platform Leader : 組織内でデータプラットフォームを業務に適用するのを支援するリーダー
→ Analytics Engineer : dbt のようなツールの登場により、分析だけでなくデータスタックを扱うアナリティクスエンジニアが可能に
- データ品質フレームワークの台頭
→ データプロファイリング:データをレビューし、品質を確認し、今後の活用方法を特定
→ ビジネス中心のデータ品質ルール定義
→ データパイプライン上での品質テストの導入:Amazon Deequ, Great Expectations
2件のコメント
2番の「最新データスタック」は、ギークニュースYouTubeの「最新データインフラを理解する」シリーズを参考にしてください ;)
https://youtube.com/playlist/?list=PLL-_zEJctPoJ92HmbGxFv1Pv_ugsggGD2
3番と5番も、シリーズ後半で扱うことになりそうです。
「最新データインフラを理解する」シリーズが公開されるたびに、いつも興味深く拝見しています。
毎日使うものばかり使っていると新しい流れに触れにくいのですが、わかりやすく説明してくださってありがとうございます。