25 ポイント 投稿者 xguru 2022-04-25 | 4件のコメント | WhatsAppで共有

2020年に公開された記事の2.0アップデート

Changelog

  • 新たに急成長した2つの分野
    • データディスカバリー、オブザーバビリティ、MLモデル監査などの重要なデータプロセスとワークフローを支援するためのツール群
    • Data Workspace、Reverse ETL、MLアプリケーションフレームワークのように、データチームやビジネスユーザーがデータから価値を生み出せるようにする新しいアプリケーション群
  • BIに追加されたもの
    • Metrics Layer : Transform、Supergrain のような新しい専用ツール。さらに dbt もこの領域へ拡張
    • Reverse ETL : Hightouch, Census
    • Data Workspace : Hex, Mode, Deepnote
    • Data Discovery & Observability : Monte Carlo、Big Eye が大規模な資金調達。シード段階の Select Star、Metaphor、Stemma、Secoda、Castor のような企業も多い
  • Multimodal Data Processing に追加されたもの
    • Lakehouse アーキテクチャへのアプローチ
    • Storage Layer がアップグレード : Delta/Iceberg/Hudi の導入と商用化がさらに進展
    • ストリーム処理の導入が増加中 : リアルタイム分析データ処理。Materialize/Upsolver
  • AI & MLに追加されたもの
    • データ中心アプローチへ統合中
      • データラベリング : Scale, Labelbox。Closed-loop Data Engine への関心が増加
      • Feature Store の導入増加 : Tecton, Feast, Databricks
      • Low-Code ML ソリューション : Continual, MindsDB, DataRobot, AutoML, Roboflow, Akkio
    • Pre-Trained モデルの利用が標準になりつつある。特に NLP。OpenAI & Hugging Face
    • MLOps が成熟し、ML Monitoring を中心に事例と予算が増加
    • MLモデルをアプリケーションにどう組み込むかにも関心が集中。既製API(OpenAI)、ベクターデータベース(Pinecone)など

データプラットフォーム仮説

  • この1年間でデータインフラスタックは中核システムと支援ツールが急速に広がったが、その理由を説明するために「データプラットフォーム」というアイデアを紹介
  • プラットフォームとは何か?
    • データエコシステムにおいて「プラットフォーム」という言葉は過度に使われている。社内チームがテックスタック全体を指す場合や、緩く結合した製品スイートを販売するベンダーによって使われている
    • ソフトウェアにおけるプラットフォームとは、他の開発者がその上で何かを開発できるものを指す
    • プラットフォームを定義する特性は、産業的な観点では、影響力のあるプラットフォーム提供者とサードパーティ開発者のプールの間にある「相互依存性」(技術的にも経済的にも)である
  • データプラットフォームとは何か?
    • 歴史的に、データスタックはプラットフォームの定義には当てはまらなかった
    • ETL、データウェアハウス、レポーティングベンダーの間には相互依存性があったものの、統合モデルは1対多よりも1対1になりがちだった。主にプロフェッショナルサービスがそれを補完していた
    • 多くのデータ専門家と話した限り、これが変わり始めている可能性がある
    • プラットフォーム仮説は、データスタックの「バックエンド(データインジェスチョン、保存、処理、変換へと続く部分)」が一部のクラウドベースベンダーに統合され始めていると主張する
    • その結果、顧客データセットは標準的なシステム群から収集され、ベンダーはこのデータを他の開発者が簡単に利用できるようにしている(Databricks の基本設計原則、SQL標準、Snowflake の Snowpark のような API などを通じて)
    • フロントエンド開発者が単一ポイント統合の恩恵を受けたのと同様に、下位構造を意識せず統合データにアクセスできるようになる
    • 財務やプロダクト分析のような従来型エンタープライズシステムも、「Warehouse-native」アーキテクチャとして再構築され始めている
    • これは OLTP DB や他の重要なバックエンド技術がまもなく消えるという意味ではない
    • しかし OLAP システムとのネイティブ統合は、アプリケーション開発の中核コンポーネントになり得る
    • ますます多くのビジネスロジックやアプリケーション機能がこのモデルへ移行する可能性がある
  • データアプリの出現?
    • このデータプラットフォーム仮説には、まだ多くの議論の余地がある
    • それでも私たちは、データプラットフォーム上の水平レイヤーとして、複雑な垂直SaaSソリューションが増えているのを見ている
    • Snowflake や Databricks のような企業は、このデータスタックにおける安定した構成要素になるだろう
      • 優れた製品、有能な営業チーム、摩擦の少ない導入モデルなどがあるため
      • 顧客がこうしたシステム上でデータアプリケーションを構築または統合すると、別のものへ切り替える合理性が低くなるため
    • この数年で多くのデータインフラ製品が作られ、今もなお登場し続けているのは、プラットフォームと関係があるはずだ
    • プラットフォーム仮説には、競争の力学を予測可能にする力がある
      • 規模が大きければ、プラットフォームの価値は非常に高い
      • 中核データシステムのベンダーは、現在の予算ではなく長期的なプラットフォーム上の地位を獲得するために積極的に競争している可能性がある
    • データインジェスチョン & トランスフォーメーション企業や、Metrics Layer または Reverse ETL 分野の高いバリュエーションも、それらが新しいデータプラットフォームの中核だと考えれば、より合理的に見えるかもしれない
  • 今後を見据えて
    • 私たちは、分析および運用データプラットフォームを定義するまだ初期段階にあり、それを構成する要素も変化し続けている
    • したがって、これは厳密な定義というより比喩として使うほうが有用だ
    • しかしこの仮説は、Signal と Noise を見分けるためのツールとしても有用であり、市場がなぜこのように動いているのかを理解する助けにもなる
    • データチームは今や、DB の発明以来どの時点よりも多くのツール、資源、組織的モメンタムを持っている
    • この新しいプラットフォーム上でアプリレイヤーが進化するのを見守ることは非常に楽しみだ

4件のコメント

 
sungwoo 2023-01-10

以前アップしてくださっていたYouTube講座の動画もアップデートしていただけますか…? ^^;
https://youtube.com/watch/…

いつもありがとうございます〜

 
xguru 2023-01-10

動画制作もやっていましたが、中断してしまうと、ますますできなくなってしまいますね…。
おそらく近いうちのアップデートは難しそうです。

 
sungwoo 2023-01-10

ああ、はい。以前に投稿してくださった内容だけでも大変参考になりました。
この場をお借りして感謝いたします。

 
xguru 2022-04-25

最新のデータインフラのための新しいアーキテクチャ の更新版です。

整理してから投稿しようと思っていたところ、Techit でもこの 2.0 の記事全体を翻訳してくださったものがありました。あわせて参考にしてください。
モダンデータアーキテクチャと新しいアーキテクチャの時代