AIデータインフラの台頭

(felicis.com)

16 ポイント投稿者 xguru 2024-11-25 | まだコメントはありません。 | WhatsAppで共有

"私たちは今、新たな産業革命の始まりにいる。電力を生産する代わりに人工知能を生み出している。.. [オープンソース]はあらゆる企業が人工知能企業になれるようにする" - ジェンスン・フアン

文書から情報を抽出すること自体は新しい概念ではない。しかし生成AI（GenAI）は大量の高品質データを必要とする
学習と推論の両方においてデータが重要であり、データの規模だけでなく、テキストやテーブルデータから動画、画像、音声へと対象が拡大している
衛星画像やロボットのセンサーデータなど、空間データの増加も観測されている
データレイヤーにおいて、AIによって最も即座に再創造されうる新しい領域は何だろうか？
- 非構造化データの抽出とパイプライン、Retrieval-Augmented Generation（RAG）、データキュレーション、データストレージ、AIメモリ
この記事の目的は、AIデータインフラの環境を分析し、最新トレンドを共有し、最も有望なイノベーション領域について語ることにある

AIデータインフラの現状

AIデータのバリューチェーンにおけるデータフローを簡潔に可視化し、データ学習および推論プロセスの流れを説明したい
データインフラのバリューチェーンを6つの主要領域に分類
- データソース（Sources）
- データ取り込みと変換（Ingestion & Transformation）
- 保存（Storage）
- 学習（Training）
- 推論（Inference）
- データサービス（Data Services）

データソース

アプリデータ: Salesforce、ServiceNowなどから抽出
リアルタイムデータ: センサー、製造、医療データ
OLTPデータベース: Oracle、MongoDBのようなトランザクションデータ
合成データ: 現実世界で収集していない人工生成データ（e.g., Mostly AI, Datagen, Tonic）
- コスト効率が高く、データコンプライアンスの面で有利
- ただし、統計的な外れ値データの表現が不十分で、モデル性能の最適化には限界がある
Webデータ: Webスクレイピングを通じて公開データを収集（e.g., Browse AI, Apify）
- 大規模データモデルの学習に不可欠だが、公開データが枯渇する可能性がある（2026〜2032年と予想）

データ取り込みと変換

データパイプラインは、データの出発地から目的地へデータを転送し、分析可能な状態に変換するプロセス
- ETL/ELT: 従来型の方式（バッチ処理、ストリーミング処理）
- 特徴量エンジニアリング/パイプライン: MLでは主にテーブルデータを処理
- 非構造化データパイプライン: データ抽出、変換、保存プロセスを統合して非構造化データを整理・保存
パイプラインの種類
- バッチ処理: 一定時間間隔でデータを抽出してロード
- ストリーミング処理: データをリアルタイムでロード（Kafka、Flinkなど）
ツールとフレームワーク
- ストリーミング（Kafka、Confluent）、処理エンジン（Databricks、Flink）、オーケストレーションツール（Astronomer、Dagster、Airflow、Prefectなど）
- ラベリングツール: LabelBox、Scale AIなど（テストデータのラベリングが重要）
  - バッチ: ETL（Airbyte、Fivetran）、Transform（dbt、coalesce）
  - 非構造化データ処理: Datavolo、Unstructured、LlamaIndexなど

データ保存

従来のアプローチ: データウェアハウスに保存
AI活用データ:
- データレイクとレイクハウス構造を活用
- ベクターデータベースを通じてデータ埋め込みを保存
主要ツール:
- データレイク: Databricks、Onehouse、Tabular、Amazon S3、GCSなど
  - ベクターDB: Pinecone、Chroma、Milvus、Weavieteなど

モデル学習

学習方式:
- 教師あり学習、教師なし学習、強化学習
大規模言語モデル（LLM）の学習プロセス:
- 事前学習: 教師なし学習でデータのパターンを認識
- 教師あり学習: 性能を最適化
- 強化学習（RLHF）: 人間のフィードバックによる性能向上
検証と評価:
- 正確性、精度、損失最小化など、モデルの適合性を評価
最終段階:
- セキュリティテスト、ガバナンス、コンプライアンスの確認
主要ツール:
- Training: TensorFlow、Modular
  - Evaluation: neptune.ai、Weights & Biases
  - MLOps: Databricks、H2O.ai、DataRobot、Dataiku、DOMINO
  - Model: OpenAI、Cohere、Mistral AI、Runway

モデル推論

プロセス:
- プロンプト入力 → トークン化/ベクトル化 → データ処理 → 出力生成
カスタマイズ:
- ベクターデータベースとLLMの連携
- ユーザーのコンテキストを反映した固有の結果を生成
必須の考慮事項:
- データセキュリティ、モデル品質、コンプライアンス
主要ツール:
- Tooling: ANON、E2B
- Memory: MemGPT、cognee.ai
- RAG Framework: LangCHain、LlamaIndex、contextual.ai、databricks
- Agent/App: ChatGPT、Claude、character.ai、Decagon、NormAi

データサービス

カテゴリ:
- データセキュリティ: アクセス制御、データ漏えい防止（Rubrik、eureka、imperva、sentra、Dig、Cyera、Varonis、BigID）
- データ可視性: データパイプラインの品質と性能を監視（Anomalo、datologyai、OBSERVE、MonteCarlo、Cleanlab、Scale AI、onum、metaplane）
- データカタログ: メタデータの集中化、データ資産の整理（atlan、Alation、Collibra、Informatica、Acryl Data、CastorDoc、select star、data.world）
結論:
- データがうまく整理されるほど、セキュリティ、可視性、管理は効率的になる

[AIによるデータ再構成]

AIによって、データインフラの次の領域でイノベーションが観測されている:

1. AIエージェントおよびアプリケーション向けの非構造化データパイプライン

非構造化データパイプラインの台頭:
- 対話型AIやエージェントアプリケーションで内部の非構造化データを活用しようとする需要が増加
- 非構造化データパイプラインには、従来のデータパイプラインと似たプロセスが含まれる: データ抽出、変換、インデキシング、保存
主要データソース:
- PDFテキスト、ナレッジベース、画像など
- 主に対話型AIのユースケースを支えるデータ
差別化要素:
- 変換段階で既存パイプラインとの違いが生じる:
  - データのチャンク化（chunking）: データを小さな単位に分割
  - メタデータ抽出: インデキシングに必要なデータを生成
  - 埋め込み: 各データチャンクをベクトル形式に変換して保存
成功要因:
- チャンク化戦略と埋め込みモデルの選択は、データ検索精度に大きな影響を与える
- ドメイン特化型埋め込みモデルの登場: たとえばコードや法務コンテンツに特化したモデル
ベクター互換データベースの活用:
- 非構造化データを保存し、問い合わせ可能な形式へ変換
- RAG（Retrieval-Augmented Generation）やエージェントを通じてLLMをパーソナライズ可能
主要な観察
- チームはさまざまなチャンク化戦略を試している
- ドメイン別に特化した埋め込みモデルが徐々に増え、精度と性能の改善に寄与している
- 企業はデータを簡単に問い合わせできる形式へ変換するツールを探している

2. Retrieval-Augmented Generation（RAG）

RAG概要:
- RAGは、LLMアプリケーションの効率を改善するためにカスタムデータを活用するアーキテクチャワークフロー
- 動作方式:
  - データをロードし、問い合わせ処理のために「インデキシング」する
  - 問い合わせはインデックスを基に最も関連性の高いデータをフィルタリング
  - フィルタリングされたコンテキストと問い合わせがLLMとプロンプトに渡され、応答を生成
- データを製品体験の一部として有効活用できる
RAGの主な利点:
- 更新された情報を提供:
  - LLMは事前学習データに制約があるため、古いまたは不正確な応答になる可能性がある
  - RAGは外部情報ソースにアクセスして最新の応答を提供する
- 事実性の強化:
  - LLMが正確な情報を提供できない問題をRAGが補完
  - 選別されたナレッジベースを活用して信頼性の高い情報を提供
- 出典の提示:
  - LLMの応答に引用や注釈を追加可能
  - ユーザーの信頼向上

3. 学習および推論性能向上のためのデータキュレーション

データキュレーション: 最適な学習および推論性能のためにデータセットをフィルタリングして構成するプロセス
- 主な作業:
  - テキスト分類
  - NSFWフィルターの適用
  - データの重複除去
  - バッチサイズの最適化
  - 性能ベースのソース最適化
  - 合成データによるデータ拡張
Meta Llama-3発表でのインサイト:
- 学習データキュレーション:
  - "最高の言語モデルを学習させるためには、高品質で大規模なデータセットのキュレーションが重要"
  - Metaは次のようなデータフィルタリングパイプラインを開発:
    - ヒューリスティックフィルター
    - NSFWフィルター
    - 意味的重複除去
    - データ品質を予測するテキスト分類器
- 微調整データキュレーション:
  - "モデル品質の最大の改善は、データを慎重にキュレーションし、人間アノテーターの注釈を複数の品質保証段階でレビューすることで達成された"
データキュレーションの効果:
- Meta AI研究チームによると:
  - キュレーションは学習時間を最大20%短縮
  - ダウンストリーム精度を改善
  - インターネットデータ枯渇の状況でもモデル性能改善の経路を提供
今後の方向性:
- モデル学習と微調整のために、自動化された高品質データフィルター、重複除去、分類器が重要
- Datology AIのような企業がこれを実現しようと取り組んでいる

4. AIのためのデータ保存

AIデータを保存する方法には3つの主要トレンドがある:
- ベクターデータベース
- データレイクの台頭
- レイクハウスへの投資増加
ベクターデータベースの重要性:
- ベクターデータベースはAIブームの中核技術の1つとして注目されている
- データ埋め込み（数値表現）の保存に適している:
  - 非構造化データ（画像、音声、動画など）を数値に変換して保存
  - 意味検索（例: "dog" を検索すると "wolf" や "puppy" を返す）をサポート
- ベクターデータベースの形態:
  - ネイティブなベクターデータベース: ベクター保存専用に設計
  - 既存データベース拡張型: 既存データベースにベクター対応機能を追加
- 活用事例: LLMのパーソナライズ
  - 企業のカスタムデータをベクトル埋め込みとして保存し、検索可能にする
  - AIエージェントがこの構造を活用してカスタマイズされた体験を提供
データレイクおよびレイクハウス
- データレイクの台頭:
  - ほとんどの企業が大規模データをデータレイクに保存
  - カスタムAI開発のためにデータレイク活用は不可欠
- レイクハウスアーキテクチャ:
  - データレイクを効果的に管理し、問い合わせできるアーキテクチャを提供
  - オープンテーブルフォーマットでデータを構成:
    - Iceberg、Delta Lake、Hudiなどを活用
  - データ整理とクエリ性能を向上
- Databricksの役割:
  - DatabricksはTabularを買収し、Delta LakeとIcebergの開発チームを統合
  - 競合の参入を難しくし、レイクハウス技術の発展を主導

5. AIメモリ

AIメモリの台頭:
- ChatGPTのメモリ機能発表以降、AIメモリが主要な議論テーマとして浮上
- 標準的なAIシステムには、強力なエピソード記憶や相互作用間の連続性が欠けている:
  - 現在のシステムは一種の短期記憶喪失状態にある
  - 複雑な逐次推論やマルチエージェントシステムにおける知識共有に制約がある
マルチエージェントシステムにおけるメモリ
- マルチエージェントシステムへと発展するにつれ、エージェント間メモリ管理システムが必要
- 機能要件:
  - エージェントごとに記憶の保存とセッション間アクセスを支援
  - アクセス制御とプライバシー保護を含む
  - エージェント間のメモリプーリング:
    - あるエージェントが別のエージェントの経験を活用可能
    - 意思決定能力を向上
- 階層型メモリが必要:
  - アクセス頻度、重要度、コストに応じてメモリを階層的に保存
MemGPT: AIメモリ管理を先導するフレームワーク
- MemGPTのビジョン: LLMが次世代オペレーティングシステム（OS）の進化を導くという目標
- アーキテクチャ概要:
  - メモリの種類:
    - 主要コンテキストメモリ: 主記憶（RAM）に類似
    - 外部コンテキストメモリ: ディスクメモリ/ディスクストレージに類似
AIメモリの重要性
- パーソナライズ、学習、内省（reflection）を支援し、AIアプリケーションの発展に不可欠
- エージェント間の協調と記憶共有を通じて、複雑なタスクを解決する能力を向上

AIワークロードの機会

AIワークロードとデータインフラ:
- GenAIの台頭によってデータインフラのあらゆる側面が変化したわけではないが、次のような技術の登場は非常に興味深い発展である:
  - 非構造化データの抽出とパイプライニング
  - Retrieval-Augmented Generation（RAG）
  - データキュレーション
  - データ保存
  - AIメモリ
Felicisの投資戦略
- AIとデータインフラの未来に集中:
  - データおよびインフラレイヤー関連スタートアップに投資
  - 主な投資事例:
    - Datology: データキュレーション
    - Metaplane: データオブザーバビリティ
    - MotherDuck: サーバーレスデータウェアハウス
    - Weights & Biases: 実験追跡ツール
AI市場の成長可能性
- 拡張可能性:
  - AI市場はチャットボットからマルチエージェントワークフローまで広範に拡大中
  - 現在はまだ始まりにすぎず、今後さらに多くの発展可能性がある
- データソリューションの重要性:
  - 成功するAIアプリケーションのためにはデータソリューションが中核
  - AIワークロードを支える大規模データビジネスが構築される見通し

AIデータインフラの台頭

AIデータインフラの現状

データソース

データ取り込みと変換

データ保存

モデル学習

モデル推論

データサービス

[AIによるデータ再構成]

1. AIエージェントおよびアプリケーション向けの非構造化データパイプライン

2. Retrieval-Augmented Generation（RAG）

3. 学習および推論性能向上のためのデータキュレーション

4. AIのためのデータ保存

5. AIメモリ

AIワークロードの機会

関連記事

まだコメントはありません。