AI業界マップと最新トレンド

(mattturck.com)

21 ポイント投稿者 xguru 2021-11-01 | 3件のコメント | WhatsAppで共有

1枚の画像で整理した2021 Data & AI Landscapeと詳細な解説

巨視的な観点：エコシステムの複雑性を理解する
資金調達、IPOおよびM&A
The 2021 Landscape
データインフラストラクチャの主要トレンド

→ Data Mesh

→ DataOpsにとって多忙な1年

→ これからはリアルタイム

→ Metrics Store

→ Reverse ETL

→ Data Sharing

分析 & エンタープライズAIの主要トレンド

→ Feature Store

→ ModelOpsの台頭

→ AIコンテンツ生成

→ 中国AIスタックの発展

"巨視的な観点：エコシステムの複雑性を理解する"

なぜデータ&AI企業は次々と生まれ続けているのか、そしていつまでこの状況が続くのか？
根本的なトレンドは「すべての企業が単なるソフトウェア企業ではなく、データ企業になりつつある」ということ
多くの組織において「データ」とは、RDBMSに保存されたトランザクションデータと、ここ数か月に起きたことを分析するためのいくつかのダッシュボードを意味していた
しかし今や企業は、「データと人工知能」が「分析と運用」のために「内部プロセスと外部アプリケーション」に組み込まれる世界へと向かっている
この根本的な進化は、基盤技術の驚異的な進歩、特に「データインフラと機械学習/AI」の共生関係(Symbiotic Relationship)によって生み出されている

→ 両分野はますます緊密に協力している

→ 最初の段階は2010年代初頭の「ビッグデータ時代」だった

→ このビッグデータを10年以上前からある古いAIアルゴリズム(ディープラーニング)に適用すると驚くべき結果を得られることが分かり、AIへの熱狂を生み出した

→ 結果として、AIがデータインフラ開発の主要なドライバーとなった

→ AIをベースにあらゆるアプリケーションを構築するのであれば、より優れたデータインフラが必要になる

2021年に至るまでの間にBig DataやAIという用語はいずれも浮き沈みを経験し、最近では「Automation」について多く語られているが、基本的にはこれらはすべて同じメガトレンドである
最近のData/AI分野における加速は、ここ数年のクラウドデータウェアハウスの成長からたどることができる
データウェアハウスは非常に基本的ではあるが、データインフラストラクチャの必須要素である「どこに保存するか」を解決する

→ ビッグデータ革命が始まってから15年以上が過ぎ、その問題は解決されたと思うかもしれないが、実際はそうではない

→ 振り返ってみると、Hadoopの初期の成功はある程度見せかけのものだった

→ 膨大なデータから実際に価値を引き出せるというアイデアを広める上では重要だったが、技術的な複雑さのため一部の企業で使われるにとどまり、市場には浸透しなかった

最近のクラウドデータウェアハウス(Snowflake, Redshift, BigQuery)とレイクハウス(Databricks)は

→ コストも低く

→ 膨大な技術人材を必要とせず

→ 膨大なデータを有用な形で保存できる機能を提供する

言い換えれば、ようやく本当にBig Dataを保存し処理できるようになった。これは非常に重要なことであり、他のData/AI分野に対するMajor Unlock(大きな解放)になったことが証明されている

→ 第一に、データウェアハウスはデータおよびAIエコシステム全体の市場規模を拡大する。使いやすさと従量課金モデルにより、データウェアハウスはあらゆる企業がデータ企業になるためのGatewayとなった

→ 第二に、データウェアハウスによって、その周辺ツールを含むエコシステムを利用できるようになる。

　⇨ ETL, ELT, Reverse ETL, ウェアハウス中心のデータ品質ツール、指標ストア、augmented analytics など

　⇨ "Modern Data Stack" ( https://ja.news.hada.io/topic?id=3055 参照 )

　⇨ モダンデータスタックの登場により多くのスタートアップが生まれ、投資が集中した (dbt, Fivetran..)

→ 第三に、データウェアハウスが最も基礎的なストレージ層を解決してくれるため、企業はデータ要求階層の中でより高い価値を持つプロジェクトに集中できるようになる

　⇨ すでにデータを保存できるようになったので、リアルタイム処理、拡張分析、機械学習といった取り組みに容易に集中できる

　⇨ これはひいては、あらゆる種類のデータ/AIツールおよびプラットフォームに対する市場需要を増加させる

　⇨ より多くの顧客ニーズが、データ/ML企業にさらなるイノベーションを生み出すフライホイールを作り出す

"データウェアハウスはデータ産業全体における重要なシグナルであり、DWが成長すれば残りもともに成長する"

データ/AI業界にとって良いニュースは、データウェアハウスとレイクハウスが非常に速く大きく成長していることだ

→ SnowflakeはQ2発表ベースでYoY 103%成長し、Net Revenue Retention 169%という驚異的な数字を示した（既存顧客がますます多く使っていることを意味する）

→ 2028年の売上は12兆ウォン($10B)を予想

将来、すべての企業が少なくとも1つのクラウドデータウェアハウスを持つようになると語る人もいる

"The Titanic Shock: Snowflake vs Databricks"

Snowflakeは最近のデータ分野を代表する存在。2020年9月のIPOはソフトウェアIPO史上最大だった。執筆時点で$95B企業
業界内の新たな競合としてDatabricksが浮上。8/31に$38Bの評価額で$1.6Bの資金調達を完了
最近まで、両社は市場の中でもかなり異なるセグメントに属していた（実際、しばらくの間は緊密なパートナーでもあった）
Snowflakeはクラウドデータウェアハウスとして、大量の構造化データ（行と列にうまく保存できるもの）を保存・処理するDB

→ 企業がBIツールを接続して、過去および現在の成果（「前四半期で最も急成長した地域は？」）に関する質問に答えるために使われる

→ 他のDBと同様にSQLを活用し、数百万人規模の潜在ユーザーを持つ

Databricksはデータ世界の別の片隅からやってきた

→ 2013年にオープンソースのSparkを商用化するところから始まった

→ 一般的に非構造化データ（テキスト、オーディオ、ビデオ）を処理するように作られている

→ Sparkユーザーは、データ構造や整理を気にせずあらゆるデータを格納できる「Data Lake」を構築するために使っていた

→ データレイクの主な用途はML/AIアプリケーションを訓練し、企業が未来に関する問い（「次の四半期に購入する可能性が最も高い顧客は？」、つまり予測分析）に答えられるようにすること

→ Databricksはデータレイクを支えるためにDeltaを作り、ML/AIを支えるためにMLflowを作った

しかし最近では、両社は互いに向かって収束している

→ DatabricksはデータレイクにDW機能を加え、アナリストが標準SQLクエリを実行し、TableauやMS PowerBIのようなツールを連携できるようにした。これを「Lakehouse」と呼んでいる

→ Databricksはデータレイクをよりデータウェアハウスらしくし、Snowflakeはデータウェアハウスをデータレイクのように見せるため、非構造化データ（オーディオ、ビデオ、PDF、画像など）の保存機能をプレビュー公開した

→ DatabricksはAI機能にBIを追加しており、SnowflakeはBI互換機能にAIを追加している

最終的には、SnowflakeとDatabricksはいずれも"The center of all things data"になりたがっている

→ すべてのデータを保存する単一の保存先。構造化/非構造化データをすべて保存し、過去の分析から将来予測まであらゆる分析を実行

もちろん多くの競合がいる（AWS、GCPのようなクラウド・ハイパースケーラー）
Snowflake と Databricks はどちらもクラウドベンダーにとって友でもあり敵でもある（Friend and Foe）

→ AWSを基盤に成長した Snowflake は他のクラウドへ拡大中

→ Databricks は Microsoft と強力なパートナーシップを結んでいるが、マルチクラウド機能を通じてベンダーロックインを避けられるよう支援している

→ 過去数年間、批評家たちは Snowflake と Databricks のビジネスモデルはクラウド事業者の価格決定によって利益率が左右されると批判してきた

今後5年間、クラウドプロバイダーとデータ業界の巨人たち（Behemoth）のダンスを見守ることが決定的なストーリーになるだろう

"Bundling, Unbundling, Consolidation?"

Snowflake と Databricks の両社の台頭を踏まえると、これは業界で待ち望まれていた統合の波の始まりだろうか？
データ / AI 分野では「機能統合（functional consolidation）は起きている」
しかし皆同じだ。誰も単一製品の会社になるより、より多くをバンドルし、より多くの機能を持ちたがっている

→ 2021/6に上場した Confluent も、リアルタイムデータ分野を超えて「動くデータと静的データの処理を統合する」ことを目指している

→ Dataiku はデータ準備プロセスから DataOps、MLOps、可視化、AI explainability などを1つのプラットフォームにバンドルすることに注力している

モダンデータスタックの登場は、機能統合のもう1つの例

→ その中核は、データ抽出からデータウェアハウス、BIまでをつなぐ企業（主にスタートアップ）の事実上の「同盟」である

こうした技術のユーザーにとって、バンドリングとコンバージェンスは大いに歓迎されるだろう

→ データ業界は成熟が進むにつれ、「トランザクション vs. 分析」「バッチ処理 vs. リアルタイム」「BI vs AI」のような Technology Divide を超えて進化していく必要がある

企業は今後も複数のベンダー/プラットフォーム/ツールと協力し、ニーズに最も適した組み合わせを作っていくだろう
核心的な理由は「イノベーションのスピードがあまりにも爆発的」だからだ

→ 次々と新しいスタートアップが現れ、ビッグテック企業が社内でデータ/AIツールを作ってオープンソース化し、既存のあらゆる技術/製品に対して毎週新しいものが登場している

ビッグデータウェアハウスやデータレイクのベンダーは、すべてのデータを中央集約する方向へ強く押し進めているが、「Data Mesh」のような新しいフレームワークも登場している

→ さまざまなチームがそれぞれ責任を持つ分散型アプローチ

機能統合に加えて M&A が起きるかどうかは分かりにくい

→ 人々が好む噂の1つに「Microsoft が Databricks の買収を望んでいる」というものもある

"Financings, IPOs, M&A: A Crazy Market"

スタートアップ市場を少しでも見てきた人なら分かるが、市場は狂っている
昨年に続いて今年もデータと ML/AI が最もホットな投資カテゴリー
上場予定企業

→ UiPath : RPA および AI 自動化企業

→ Confluent : Kafka

→ C3.ai : AI プラットフォーム

→ Couchbase : no-SQL DB

→ SentinelOne : 自動化 AI エンドポイントセキュリティプラットフォーム

→ TuSimple : 自動運転トラック

→ Zymergen : バイオマニュファクチャリング

→ Recursion : AIドリブン創薬企業

→ Darktrace : AIベースのサイバーセキュリティ

SPAC の増加により、AI市場の最前線にいるテクノロジー企業（自動運転、バイオテックなど）が恩恵を受けるだろう

"The 2021 MAD Landscape & What’s New this Year"

今年のマップでは「Analytics and Machine Intelligence」を「Analytics」と「Machine Learning & Artificial Intelligence」に分離
新しいカテゴリーを追加

→ Infrastructure

→ ⇨ Reverse ETL : データウェアハウスから SaaS アプリケーションへ再びデータを送る製品群

→ ⇨ Data Observability : データリネージ（Lineage）を基盤にデータ品質問題の解決に焦点を当てた DataOps の構成要素

→ ⇨ Privacy & Security : データプライバシーの重要性が高まり、多くのスタートアップがこのカテゴリーに登場

→ Analytics

→ ⇨ Data Catalogs & Discovery : 過去12カ月で最も活発だったカテゴリー。ユーザーが必要なデータセットを見つけて管理できるようにする

→ ⇨ Augmented Analytics : BI ツールが NLG/NLP の進歩を活用して自動的にインサイトを生成し、非技術系の受け手にもデータを利用しやすくする

→ ⇨ Metrics Stores : 主要なビジネスメトリクスのための中央ストア。データスタックに新たに参入

→ ⇨ Query Engines

→ Machine Learning and AI

→ ⇨ MLOps カテゴリーを細分化 : Model Building、Feature Stores、Deployment and Production

→ Open Source

→ ⇨ Format、Orchestration、Data Quality & Observability を追加

以前はシリーズC以上のスタートアップや上場企業が多かったが、今年はシリーズA/シード段階の企業が多く追加された

"データインフラストラクチャの主要トレンド"

2020

→ Modern Data Stack（モダンデータスタック）がメインストリームに

→ ETL vs ELT

→ データエンジニアリングの自動化？

→ データアナリストの台頭

→ データレイクとデータウェアハウスは統合されるのか？

→ いまだ解決されていない複雑さ

2021

→ Data Mesh

→ DataOps にとって忙しい1年

→ いまやリアルタイム

→ Metrics Stores

→ Reverse ETL

→ Data Sharing

[Data Mesh]

Zhamak Dehghani が2019年に提唱した「How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh」に由来
2020〜21年の間に大きな勢いが生まれた
データメッシュのコンセプトは、主に組織的なアイデア
これまでデータインフラとチームを構築する標準的な方法は中央集権型だった。1つの大きなプラットフォームを1つのデータチームが管理し、ビジネス要件を満たしてきた
利点は多いが、ボトルネックなどの問題も発生する
脱中央集権によって、それぞれのドメインを担当する独立したデータチームを作り、組織内の他の人々に「プロダクトとして」データを提供するということ

→ ソフトウェア工学でいうマイクロサービスの概念に近い

さまざまな意味を持つが

→ これが実現すれば、分散データスタックでミッションクリティカルなツールを作る新興企業にとって大きな機会になるだろう

複数のストレージを横断して統合クエリと分析を行う SQL Query Engine である Starburst は、自社を「データメッシュのための分析エンジン」としてリブランディングした
複雑なパイプラインを管理するオーケストレーションエンジン（Airflow、Prefect、Dagster）のようなものが、さらにミッションクリティカルになっていくだろう
ストレージやパイプラインのコンピューティング環境でデータを追跡することは、コンプライアンスとガバナンスの観点からますます必須となり、データリネージュ（Data Lineage）の必要性が高まっている（OpenLineage、DataKin）

[DataOpsにとって忙しい1年]

DataOpsという概念はここ数年漂っていたが、最近になって実際に活性化してきた
さまざまな定義が存在する

→ データ世界のDevOps

→ データパイプラインの構築と保守管理、データカタログを通じた適切なデータセットの発見、そしてデータの生産者と消費者が必要な作業を行うために必要なあらゆるもの

いずれにせよDevOpsと同様に「方法論、プロセス、人、プラットフォーム、ツールの組み合わせ」
広い文脈では「データエンジニアリングのツールとプラクティス」が、ソフトウェアエンジニアリングの自動化レベルより大きく遅れているということ
データ/AIの重要性が増すほど、より良いツールとプラクティスが必要になる
誰もが「データ世界のDataDog」になりたがっている（実際にDataDogがDataOpsで使われることもあるが、基本的にはソフトウェアエンジニアリング基盤である）
Data observability、Data Lineage、Data Quality、Data Reliability Engineering、Data Access & Governance などさまざまなサブパートがある

[今やリアルタイム]

「リアルタイム」または「ストリーミング」データとは、生成された直後にそのまま処理・消費されるデータのこと
現在までデータインフラの支配的パラダイムである「バッチ」とは対照的なもの
リアルタイムデータ処理は10〜15年前のビッグデータ時代初期から熱いテーマだった

→ 特に処理速度は、Hadoop MRと比べてSparkの成功を後押しした中核要因だった

しかしここ数年「まもなく爆発する」市場と言われながら、実際には爆発しなかった
ConfluentのIPOの大成功が、懐疑論者たちが間違っていたことを証明した
そしてConfluentを超えて、リアルタイムデータのエコシステム全体が加速した
特に「リアルタイム分析」で多くの動きが見られた

→ ロシアのYandexが作ったClickHouseは米国で会社を設立し、$50Mの投資を受けた

→ Druidオープンソースベースのリアルタイム分析プラットフォームImplyは$70Mの投資を受けた

[Metrics Stores]

ここ数年で企業のデータ量とデータ利用頻度、複雑性が増加した
複雑性が増すにつれて、データ不整合による頭痛の種も一緒に増えている
指標（Metric）はディメンション/定義やその他の要因が少し変わるだけでも、簡単にずれてしまうことがある
データは、チームが利用する際に正確で信頼できる場合にのみ有用である
指標を中央集約しようとする試みは、AirBnBのMinervaのような独自ソリューションの開発につながった「Define Once, Use Anywhere」
主要なビジネス指標およびあらゆるディメンションの定義を標準化し、関係者にその定義に基づく正確で分析可能なデータセットを提供する
中央集約された指標定義を基にデータへの信頼を構築し、誰にでも指標へのクロスファンクショナルなアクセスを提供する
Metrics Storeは

→ データウェアハウスの上位に位置し、BIプラットフォーム、分析およびデータサイエンスツール、運用アプリケーションを含むすべてのダウンストリームアプリケーションにデータを通知する

→ データの一貫性を保ち、ビジネスロジックが変更されると自動的に反映されるようにする

Transform、Trace、Supergrain のようなスタートアップがある

[Reverse ETL]

最新のデータスタックでReverse ETLが1つのカテゴリーになった
データウェアハウスからCRM、マーケティング自動化システム、カスタマーサポートプラットフォームのようなビジネスアプリケーションへデータを戻して移動させる
実際の運用ツールが、他のビジネスアプリケーションで強化された最新データを活用できるようにするもの
多くのReverse ETLツールが資金調達を受けた：Census、Rudderstack、Grouparoo、Hightouch、Headsup、Polytomic

[Data Sharing]

企業内だけでなく、組織全体にわたるデータ共有とデータコラボレーションの台頭
サプライチェーンの可視性、機械学習モデルの学習、市場投入計画の共有などのために、サプライヤー、パートナー、顧客などのエコシステムとデータを共有したいと考えている
組織間データ共有は「データクラウド」ベンダーの中核テーマ
2021/5月にGoogleはAnalytics Hubをローンチ。組織内/外でデータ/インサイト/ダッシュボード/機械学習モデルを共有。また金融サービス向けのDataShareも公開
Googleと同じ日にDatabricksはDelta Sharingを公開。組織間データ共有のためのオープンソースプロトコル
2021/6月にSnowflakeはデータマーケットプレイスを通じてSecure Data Sharing機能を公開
Habr、Crossbeam のようなスタートアップがある

「ML/AIの主要トレンド」

2020

Boom time for data science and machine learning platforms (DSML)
ML getting deployed and embedded
The Year of NLP

2021

Feature Stores
The rise of ModelOps
AI content generation
The continued emergence of a separate Chinese AI stack
人工知能に関する研究は、速いスピードで引き続き発展中

→ DeepMind Alphafold、OpenAI GTP-3/DALL-E/CLIP

[Feature Stores]

Uberが2017年にアイデアを紹介して以来、機械学習スタックでますます一般的になっている

→ Tecton、Rasgo、Logical Clocks、Kaskada のような企業が資金調達ラウンドを実施

機械学習における特徴量（変数または属性）は、個別に測定可能な属性または特性であり、データスニペットではカラムとして表現される

→ 機械学習モデルは単一の特徴量から数百万個までの特徴量を利用できる

より複雑なモデルやパイプラインを使うようになるにつれて、ますますAd-Hocに実行されるようになった
エンジニアやデータサイエンティストは、Rawデータから特徴量を再抽出するのに多くの時間を費やすことが多い
本番環境と実験環境のギャップは、モデルの性能や動作の不一致を引き起こす可能性がある
組織は機械学習モデルのガバナンスや再現性などに関心を持つ一方で、特徴量のサイロ化はそれを実際にはより難しくする
Feature Storeは協業を促進し、このサイロをなくす
学習と本番の両方で単一の情報ソースを提供し、複雑性を減らして特徴量を標準化・再利用する
組織内で厳選された特徴量を保存し、生データを特徴量の値に変換するデータパイプラインを実行し、APIを通じて高速アクセスを提供する

[The Rise of ModelOps]

多くの企業は、モデルを実験段階から本番へ持ち込むことが難しいと気づき、さらに運用中のモデルには継続的な監視と再学習が必要であることも理解するようになった
MLOpsはDevOpsのベストプラクティスを適用し、大規模なモデルの迅速かつ継続的な開発とデプロイを簡素化する
ModelOpsはMLOpsの上位集合であり、MLを含むすべてのAIモデルについて、学習から本番に至るすべての段階でより迅速な運用を目指す
ModelOpsはツールとプロセスの両方を扱い、プロセスを統合し、モデルオーケストレーションを標準化し、包括的なガバナンス機能とともにすべてのモデルのための中央集約型リポジトリを提供する
適切に実装されたModelOpsは、すべてのモデルをデプロイ/監視および管理する統合システムを提供し、リスクを減らしてコンプライアンスを高める

[AI Content Generation]

AIはこの数年で大きく成熟し、テキスト、画像、コード、動画を含むあらゆる種類のメディアにわたってコンテンツを作るために活用されるようになった
OpenAIがGPT-3を公開。GitHubはOpenAI Codexを活用したGitHub Copilotを公開
OpenAIは英語中心のモデルに注力しているが、他言語に取り組む企業も多い

→ ドイツのAleph Alpha、AI21 Labs、HuaweiのPanGu、NaverのHyperCLOVA

[中国における独自のAIスタックの継続的な出現]

中国は、世界最大のデータ生産国である自国市場とともに、グローバルなAI大国として発展を続けている
最高クラスのレコメンドアルゴリズムの1つを持つTikTokが西側で成功し、中国のAI消費者向け技術が初めて実際に広がった
中国は2030年までのAI覇権を掲げ、財政支援も受ける中で、これまで西側のツールを活用していた中国に独自のスタックが現れ始めた

3件のコメント

ehanmire 2021-11-11

いくつもの文章から良いインサイトを得て、いろいろと考えさせられています。

ありがとうございます〜

プロセスとデータは骨と血液のようなものだとふと思い、

どこかに血液が集まり、血管ができて組織が生まれるのだろうけれど、

企業がお金を稼ぐのは動きから来るのではないかという、

そんな不思議なたとえが突然頭に浮かびました。

sungwoo 2021-11-08

いつもとても質の高い情報をすっきりと整理してくださり、ありがとうございます。

xguru 2021-11-07

2020年のデータ＆AIランドスケープ https://ja.news.hada.io/topic?id=2979