2021年のデータ/ML/AI業界マップと最新トレンド
(mattturck.com)→ すべてのデータを保存する単一の保存先。構造化/非構造化データをすべて保存し、過去の分析から将来予測まであらゆる分析を実行<br />
- もちろん多くの競合がいる(AWS、GCPのようなクラウド・ハイパースケーラー)<br />
- Snowflake と Databricks はどちらもクラウドベンダーにとって友でもあり敵でもある(Friend and Foe)<br /> → AWSを基盤に成長した Snowflake は他のクラウドへ拡大中 <br /> → Databricks は Microsoft と強力なパートナーシップを結んでいるが、マルチクラウド機能を通じてベンダーロックインを避けられるよう支援している <br /> → 過去数年間、批評家たちは Snowflake と Databricks のビジネスモデルはクラウド事業者の価格決定によって利益率が左右されると批判してきた <br />
- 今後5年間、クラウドプロバイダーとデータ業界の巨人たち(Behemoth)のダンスを見守ることが決定的なストーリーになるだろう <br /> <br />
"Bundling, Unbundling, Consolidation?"<br />
- Snowflake と Databricks の両社の台頭を踏まえると、これは業界で待ち望まれていた統合の波の始まりだろうか?<br />
- データ / AI 分野では「機能統合(functional consolidation)は起きている」<br />
- しかし皆同じだ。誰も単一製品の会社になるより、より多くをバンドルし、より多くの機能を持ちたがっている<br /> → 2021/6に上場した Confluent も、リアルタイムデータ分野を超えて「動くデータと静的データの処理を統合する」ことを目指している <br /> → Dataiku はデータ準備プロセスから DataOps、MLOps、可視化、AI explainability などを1つのプラットフォームにバンドルすることに注力している <br />
- モダンデータスタックの登場は、機能統合のもう1つの例 <br /> → その中核は、データ抽出からデータウェアハウス、BIまでをつなぐ企業(主にスタートアップ)の事実上の「同盟」である <br />
- こうした技術のユーザーにとって、バンドリングとコンバージェンスは大いに歓迎されるだろう<br /> → データ業界は成熟が進むにつれ、「トランザクション vs. 分析」「バッチ処理 vs. リアルタイム」「BI vs AI」のような Technology Divide を超えて進化していく必要がある <br />
- 企業は今後も複数のベンダー/プラットフォーム/ツールと協力し、ニーズに最も適した組み合わせを作っていくだろう<br /> <br />
- 核心的な理由は「イノベーションのスピードがあまりにも爆発的」だからだ<br /> → 次々と新しいスタートアップが現れ、ビッグテック企業が社内でデータ/AIツールを作ってオープンソース化し、既存のあらゆる技術/製品に対して毎週新しいものが登場している <br /> <br />
- ビッグデータウェアハウスやデータレイクのベンダーは、すべてのデータを中央集約する方向へ強く押し進めているが、「Data Mesh」のような新しいフレームワークも登場している <br /> → さまざまなチームがそれぞれ責任を持つ分散型アプローチ <br /> <br />
- 機能統合に加えて M&A が起きるかどうかは分かりにくい <br /> → 人々が好む噂の1つに「Microsoft が Databricks の買収を望んでいる」というものもある<br /> <br />
"Financings, IPOs, M&A: A Crazy Market"<br />
- スタートアップ市場を少しでも見てきた人なら分かるが、市場は狂っている <br />
- 昨年に続いて今年もデータと ML/AI が最もホットな投資カテゴリー<br />
- 上場予定企業<br /> → UiPath : RPA および AI 自動化企業 <br /> → Confluent : Kafka <br /> → C3.ai : AI プラットフォーム <br /> → Couchbase : no-SQL DB <br /> → SentinelOne : 自動化 AI エンドポイントセキュリティプラットフォーム <br /> → TuSimple : 自動運転トラック <br /> → Zymergen : バイオマニュファクチャリング <br /> → Recursion : AIドリブン創薬企業<br /> → Darktrace : AIベースのサイバーセキュリティ<br />
- SPAC の増加により、AI市場の最前線にいるテクノロジー企業(自動運転、バイオテックなど)が恩恵を受けるだろう<br /> <br />
"The 2021 MAD Landscape & What’s New this Year"<br />
- 今年のマップでは「Analytics and Machine Intelligence」を「Analytics」と「Machine Learning & Artificial Intelligence」に分離 <br />
- 新しいカテゴリーを追加 <br /> → Infrastructure<br /> → ⇨ Reverse ETL : データウェアハウスから SaaS アプリケーションへ再びデータを送る製品群 <br /> → ⇨ Data Observability : データリネージ(Lineage)を基盤にデータ品質問題の解決に焦点を当てた DataOps の構成要素 <br /> → ⇨ Privacy & Security : データプライバシーの重要性が高まり、多くのスタートアップがこのカテゴリーに登場 <br /> → Analytics<br /> → ⇨ Data Catalogs & Discovery : 過去12カ月で最も活発だったカテゴリー。ユーザーが必要なデータセットを見つけて管理できるようにする <br /> → ⇨ Augmented Analytics : BI ツールが NLG/NLP の進歩を活用して自動的にインサイトを生成し、非技術系の受け手にもデータを利用しやすくする <br /> → ⇨ Metrics Stores : 主要なビジネスメトリクスのための中央ストア。データスタックに新たに参入<br /> → ⇨ Query Engines <br /> → Machine Learning and AI <br /> → ⇨ MLOps カテゴリーを細分化 : Model Building、Feature Stores、Deployment and Production <br /> → Open Source <br /> → ⇨ Format、Orchestration、Data Quality & Observability を追加 <br />
- 以前はシリーズC以上のスタートアップや上場企業が多かったが、今年はシリーズA/シード段階の企業が多く追加された <br /> <br />
"データインフラストラクチャの主要トレンド"<br />
-
2020 <br /> → Modern Data Stack(モダンデータスタック)がメインストリームに <br /> → ETL vs ELT <br /> → データエンジニアリングの自動化?<br /> → データアナリストの台頭 <br /> → データレイクとデータウェアハウスは統合されるのか?<br /> → いまだ解決されていない複雑さ <br /> <br />
-
2021 <br /> → Data Mesh <br /> → DataOps にとって忙しい1年 <br /> → いまやリアルタイム<br /> → Metrics Stores <br /> → Reverse ETL <br /> → Data Sharing <br /> <br /> [Data Mesh]<br />
-
Zhamak Dehghani が2019年に提唱した「How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh」に由来 <br />
-
2020〜21年の間に大きな勢いが生まれた<br />
-
データメッシュのコンセプトは、主に組織的なアイデア<br />
-
これまでデータインフラとチームを構築する標準的な方法は中央集権型だった。1つの大きなプラットフォームを1つのデータチームが管理し、ビジネス要件を満たしてきた <br />
-
利点は多いが、ボトルネックなどの問題も発生する <br />
-
脱中央集権によって、それぞれのドメインを担当する独立したデータチームを作り、組織内の他の人々に「プロダクトとして」データを提供するということ <br /> → ソフトウェア工学でいうマイクロサービスの概念に近い <br />
-
さまざまな意味を持つが <br /> → これが実現すれば、分散データスタックでミッションクリティカルなツールを作る新興企業にとって大きな機会になるだろう<br />
-
複数のストレージを横断して統合クエリと分析を行う SQL Query Engine である Starburst は、自社を「データメッシュのための分析エンジン」としてリブランディングした <br />
-
複雑なパイプラインを管理するオーケストレーションエンジン(Airflow、Prefect、Dagster)のようなものが、さらにミッションクリティカルになっていくだろう <br />
-
ストレージやパイプラインのコンピューティング環境でデータを追跡することは、コンプライアンスとガバナンスの観点からますます必須となり、データリネージュ(Data Lineage)の必要性が高まっている(OpenLineage、DataKin)<br /> <br /> [DataOpsにとって忙しい1年]<br />
-
DataOpsという概念はここ数年漂っていたが、最近になって実際に活性化してきた <br />
-
さまざまな定義が存在する <br /> → データ世界のDevOps <br /> → データパイプラインの構築と保守管理、データカタログを通じた適切なデータセットの発見、そしてデータの生産者と消費者が必要な作業を行うために必要なあらゆるもの <br />
-
いずれにせよDevOpsと同様に「方法論、プロセス、人、プラットフォーム、ツールの組み合わせ」<br />
-
広い文脈では「データエンジニアリングのツールとプラクティス」が、ソフトウェアエンジニアリングの自動化レベルより大きく遅れているということ<br />
-
データ/AIの重要性が増すほど、より良いツールとプラクティスが必要になる <br />
-
誰もが「データ世界のDataDog」になりたがっている(実際にDataDogがDataOpsで使われることもあるが、基本的にはソフトウェアエンジニアリング基盤である)<br />
-
Data observability、Data Lineage、Data Quality、Data Reliability Engineering、Data Access & Governance などさまざまなサブパートがある<br /> <br /> [今やリアルタイム]<br />
-
「リアルタイム」または「ストリーミング」データとは、生成された直後にそのまま処理・消費されるデータのこと <br />
-
現在までデータインフラの支配的パラダイムである「バッチ」とは対照的なもの <br />
-
リアルタイムデータ処理は10〜15年前のビッグデータ時代初期から熱いテーマだった<br /> → 特に処理速度は、Hadoop MRと比べてSparkの成功を後押しした中核要因だった <br />
-
しかしここ数年「まもなく爆発する」市場と言われながら、実際には爆発しなかった <br />
-
ConfluentのIPOの大成功が、懐疑論者たちが間違っていたことを証明した <br />
-
そしてConfluentを超えて、リアルタイムデータのエコシステム全体が加速した <br />
-
特に「リアルタイム分析」で多くの動きが見られた <br /> → ロシアのYandexが作ったClickHouseは米国で会社を設立し、$50Mの投資を受けた <br /> → Druidオープンソースベースのリアルタイム分析プラットフォームImplyは$70Mの投資を受けた <br /> <br /> [Metrics Stores]<br />
-
ここ数年で企業のデータ量とデータ利用頻度、複雑性が増加した <br />
-
複雑性が増すにつれて、データ不整合による頭痛の種も一緒に増えている <br />
-
指標(Metric)はディメンション/定義やその他の要因が少し変わるだけでも、簡単にずれてしまうことがある<br />
-
データは、チームが利用する際に正確で信頼できる場合にのみ有用である <br />
-
指標を中央集約しようとする試みは、AirBnBのMinervaのような独自ソリューションの開発につながった「Define Once, Use Anywhere」<br />
-
主要なビジネス指標およびあらゆるディメンションの定義を標準化し、関係者にその定義に基づく正確で分析可能なデータセットを提供する <br />
-
中央集約された指標定義を基にデータへの信頼を構築し、誰にでも指標へのクロスファンクショナルなアクセスを提供する <br />
-
Metrics Storeは <br /> → データウェアハウスの上位に位置し、BIプラットフォーム、分析およびデータサイエンスツール、運用アプリケーションを含むすべてのダウンストリームアプリケーションにデータを通知する <br /> → データの一貫性を保ち、ビジネスロジックが変更されると自動的に反映されるようにする <br />
-
Transform、Trace、Supergrain のようなスタートアップがある <br /> <br /> [Reverse ETL]<br />
-
最新のデータスタックでReverse ETLが1つのカテゴリーになった <br />
-
データウェアハウスからCRM、マーケティング自動化システム、カスタマーサポートプラットフォームのようなビジネスアプリケーションへデータを戻して移動させる <br />
-
実際の運用ツールが、他のビジネスアプリケーションで強化された最新データを活用できるようにするもの <br />
-
多くのReverse ETLツールが資金調達を受けた:Census、Rudderstack、Grouparoo、Hightouch、Headsup、Polytomic <br /> <br /> [Data Sharing]<br />
-
企業内だけでなく、組織全体にわたるデータ共有とデータコラボレーションの台頭 <br />
-
サプライチェーンの可視性、機械学習モデルの学習、市場投入計画の共有などのために、サプライヤー、パートナー、顧客などのエコシステムとデータを共有したいと考えている <br />
-
組織間データ共有は「データクラウド」ベンダーの中核テーマ <br />
-
2021/5月にGoogleはAnalytics Hubをローンチ。組織内/外でデータ/インサイト/ダッシュボード/機械学習モデルを共有。また金融サービス向けのDataShareも公開 <br />
-
Googleと同じ日にDatabricksはDelta Sharingを公開。組織間データ共有のためのオープンソースプロトコル <br />
-
2021/6月にSnowflakeはデータマーケットプレイスを通じてSecure Data Sharing機能を公開 <br />
-
Habr、Crossbeam のようなスタートアップがある </p><p>## 「ML/AIの主要トレンド」<br /> 2020<br />
-
Boom time for data science and machine learning platforms (DSML)<br />
-
ML getting deployed and embedded<br />
-
The Year of NLP<br /> <br /> 2021<br />
-
Feature Stores<br />
-
The rise of ModelOps<br />
-
AI content generation<br />
-
The continued emergence of a separate Chinese AI stack<br /> <br />
-
人工知能に関する研究は、速いスピードで引き続き発展中<br /> → DeepMind Alphafold、OpenAI GTP-3/DALL-E/CLIP <br /> <br /> [Feature Stores]<br />
-
Uberが2017年にアイデアを紹介して以来、機械学習スタックでますます一般的になっている <br /> → Tecton、Rasgo、Logical Clocks、Kaskada のような企業が資金調達ラウンドを実施 <br />
-
機械学習における特徴量(変数または属性)は、個別に測定可能な属性または特性であり、データスニペットではカラムとして表現される<br /> → 機械学習モデルは単一の特徴量から数百万個までの特徴量を利用できる <br />
-
より複雑なモデルやパイプラインを使うようになるにつれて、ますますAd-Hocに実行されるようになった <br />
-
エンジニアやデータサイエンティストは、Rawデータから特徴量を再抽出するのに多くの時間を費やすことが多い <br />
-
本番環境と実験環境のギャップは、モデルの性能や動作の不一致を引き起こす可能性がある<br />
-
組織は機械学習モデルのガバナンスや再現性などに関心を持つ一方で、特徴量のサイロ化はそれを実際にはより難しくする <br />
-
Feature Storeは協業を促進し、このサイロをなくす <br />
-
学習と本番の両方で単一の情報ソースを提供し、複雑性を減らして特徴量を標準化・再利用する <br />
-
組織内で厳選された特徴量を保存し、生データを特徴量の値に変換するデータパイプラインを実行し、APIを通じて高速アクセスを提供する <br /> <br /> [The Rise of ModelOps]<br />
-
多くの企業は、モデルを実験段階から本番へ持ち込むことが難しいと気づき、さらに運用中のモデルには継続的な監視と再学習が必要であることも理解するようになった <br />
-
MLOpsはDevOpsのベストプラクティスを適用し、大規模なモデルの迅速かつ継続的な開発とデプロイを簡素化する <br />
-
ModelOpsはMLOpsの上位集合であり、MLを含むすべてのAIモデルについて、学習から本番に至るすべての段階でより迅速な運用を目指す <br />
-
ModelOpsはツールとプロセスの両方を扱い、プロセスを統合し、モデルオーケストレーションを標準化し、包括的なガバナンス機能とともにすべてのモデルのための中央集約型リポジトリを提供する <br />
-
適切に実装されたModelOpsは、すべてのモデルをデプロイ/監視および管理する統合システムを提供し、リスクを減らしてコンプライアンスを高める <br /> <br /> [AI Content Generation]<br />
-
AIはこの数年で大きく成熟し、テキスト、画像、コード、動画を含むあらゆる種類のメディアにわたってコンテンツを作るために活用されるようになった<br />
-
OpenAIがGPT-3を公開。GitHubはOpenAI Codexを活用したGitHub Copilotを公開 <br />
-
OpenAIは英語中心のモデルに注力しているが、他言語に取り組む企業も多い <br /> → ドイツのAleph Alpha、AI21 Labs、HuaweiのPanGu、NaverのHyperCLOVA<br /> <br /> [中国における独自のAIスタックの継続的な出現]<br />
-
中国は、世界最大のデータ生産国である自国市場とともに、グローバルなAI大国として発展を続けている <br />
-
最高クラスのレコメンドアルゴリズムの1つを持つTikTokが西側で成功し、中国のAI消費者向け技術が初めて実際に広がった <br />
-
中国は2030年までのAI覇権を掲げ、財政支援も受ける中で、これまで西側のツールを活用していた中国に独自のスタックが現れ始めた </p>
3件のコメント