AIデータインフラの台頭
(felicis.com)> "私たちは今、新たな産業革命の始まりにいる。電力を生産する代わりに人工知能を生み出している。.. [オープンソース]はあらゆる企業が人工知能企業になれるようにする" - ジェンスン・フアン
- 文書から情報を抽出すること自体は新しい概念ではない。しかし生成AI(GenAI)は大量の高品質データを必要とする
- 学習と推論の両方においてデータが重要であり、データの規模だけでなく、テキストやテーブルデータから動画、画像、音声へと対象が拡大している
- 衛星画像やロボットのセンサーデータなど、空間データの増加も観測されている
- データレイヤーにおいて、AIによって最も即座に再創造されうる新しい領域は何だろうか?
- 非構造化データの抽出とパイプライン、Retrieval-Augmented Generation(RAG)、データキュレーション、データストレージ、AIメモリ
- この記事の目的は、AIデータインフラの環境を分析し、最新トレンドを共有し、最も有望なイノベーション領域について語ることにある
AIデータインフラの現状
- AIデータのバリューチェーンにおけるデータフローを簡潔に可視化し、データ学習および推論プロセスの流れを説明したい
- データインフラのバリューチェーンを6つの主要領域に分類
- データソース(Sources)
- データ取り込みと変換(Ingestion & Transformation)
- 保存(Storage)
- 学習(Training)
- 推論(Inference)
- データサービス(Data Services)
データソース
- アプリデータ: Salesforce、ServiceNowなどから抽出
- リアルタイムデータ: センサー、製造、医療データ
- OLTPデータベース: Oracle、MongoDBのようなトランザクションデータ
- 合成データ: 現実世界で収集していない人工生成データ(e.g., Mostly AI, Datagen, Tonic)
- コスト効率が高く、データコンプライアンスの面で有利
- ただし、統計的な外れ値データの表現が不十分で、モデル性能の最適化には限界がある
- Webデータ: Webスクレイピングを通じて公開データを収集(e.g., Browse AI, Apify)
- 大規模データモデルの学習に不可欠だが、公開データが枯渇する可能性がある(2026〜2032年と予想)
データ取り込みと変換
- データパイプラインは、データの出発地から目的地へデータを転送し、分析可能な状態に変換するプロセス
- ETL/ELT: 従来型の方式(バッチ処理、ストリーミング処理)
- 特徴量エンジニアリング/パイプライン: MLでは主にテーブルデータを処理
- 非構造化データパイプライン: データ抽出、変換、保存プロセスを統合して非構造化データを整理・保存
- パイプラインの種類
- バッチ処理: 一定時間間隔でデータを抽出してロード
- ストリーミング処理: データをリアルタイムでロード(Kafka、Flinkなど)
- ツールとフレームワーク
- ストリーミング(Kafka、Confluent)、処理エンジン(Databricks、Flink)、オーケストレーションツール(Astronomer、Dagster、Airflow、Prefectなど)
- ラベリングツール: LabelBox、Scale AIなど(テストデータのラベリングが重要)
- バッチ: ETL(Airbyte、Fivetran)、Transform(dbt、coalesce)
- 非構造化データ処理: Datavolo、Unstructured、LlamaIndexなど
データ保存
- 従来のアプローチ: データウェアハウスに保存
- AI活用データ:
- データレイクとレイクハウス構造を活用
- ベクターデータベースを通じてデータ埋め込みを保存
- 主要ツール:
- データレイク: Databricks、Onehouse、Tabular、Amazon S3、GCSなど
- ベクターDB: Pinecone、Chroma、Milvus、Weavieteなど
- データレイク: Databricks、Onehouse、Tabular、Amazon S3、GCSなど
モデル学習
- 学習方式:
- 教師あり学習、教師なし学習、強化学習
- 大規模言語モデル(LLM)の学習プロセス:
- 事前学習: 教師なし学習でデータのパターンを認識
- 教師あり学習: 性能を最適化
- 強化学習(RLHF): 人間のフィードバックによる性能向上
- 検証と評価:
- 正確性、精度、損失最小化など、モデルの適合性を評価
- 最終段階:
- セキュリティテスト、ガバナンス、コンプライアンスの確認
- 主要ツール:
- Training: TensorFlow、Modular
- Evaluation: neptune.ai、Weights & Biases
- MLOps: Databricks、H2O.ai、DataRobot、Dataiku、DOMINO
- Model: OpenAI、Cohere、Mistral AI、Runway
- Training: TensorFlow、Modular
モデル推論
- プロセス:
- プロンプト入力 → トークン化/ベクトル化 → データ処理 → 出力生成
- カスタマイズ:
- ベクターデータベースとLLMの連携
- ユーザーのコンテキストを反映した固有の結果を生成
- 必須の考慮事項:
- データセキュリティ、モデル品質、コンプライアンス
- 主要ツール:
- Tooling: ANON、E2B
- Memory: MemGPT、cognee.ai
- RAG Framework: LangCHain、LlamaIndex、contextual.ai、databricks
- Agent/App: ChatGPT、Claude、character.ai、Decagon、NormAi
データサービス
- カテゴリ:
- データセキュリティ: アクセス制御、データ漏えい防止(Rubrik、eureka、imperva、sentra、Dig、Cyera、Varonis、BigID)
- データ可視性: データパイプラインの品質と性能を監視(Anomalo、datologyai、OBSERVE、MonteCarlo、Cleanlab、Scale AI、onum、metaplane)
- データカタログ: メタデータの集中化、データ資産の整理(atlan、Alation、Collibra、Informatica、Acryl Data、CastorDoc、select star、data.world)
- 結論:
- データがうまく整理されるほど、セキュリティ、可視性、管理は効率的になる
[AIによるデータ再構成]
AIによって、データインフラの次の領域でイノベーションが観測されている:
1. AIエージェントおよびアプリケーション向けの非構造化データパイプライン
- 非構造化データパイプラインの台頭:
- 対話型AIやエージェントアプリケーションで内部の非構造化データを活用しようとする需要が増加
- 非構造化データパイプラインには、従来のデータパイプラインと似たプロセスが含まれる: データ抽出、変換、インデキシング、保存
- 主要データソース:
- PDFテキスト、ナレッジベース、画像など
- 主に対話型AIのユースケースを支えるデータ
- 差別化要素:
- 変換段階で既存パイプラインとの違いが生じる:
- データのチャンク化(chunking): データを小さな単位に分割
- メタデータ抽出: インデキシングに必要なデータを生成
- 埋め込み: 各データチャンクをベクトル形式に変換して保存
- 変換段階で既存パイプラインとの違いが生じる:
- 成功要因:
- チャンク化戦略と埋め込みモデルの選択は、データ検索精度に大きな影響を与える
- ドメイン特化型埋め込みモデルの登場: たとえばコードや法務コンテンツに特化したモデル
- ベクター互換データベースの活用:
- 非構造化データを保存し、問い合わせ可能な形式へ変換
- RAG(Retrieval-Augmented Generation)やエージェントを通じてLLMをパーソナライズ可能
- 主要な観察
- チームはさまざまなチャンク化戦略を試している
- ドメイン別に特化した埋め込みモデルが徐々に増え、精度と性能の改善に寄与している
- 企業はデータを簡単に問い合わせできる形式へ変換するツールを探している
2. Retrieval-Augmented Generation(RAG)
- RAG概要:
- RAGは、LLMアプリケーションの効率を改善するためにカスタムデータを活用するアーキテクチャワークフロー
- 動作方式:
- データをロードし、問い合わせ処理のために「インデキシング」する
- 問い合わせはインデックスを基に最も関連性の高いデータをフィルタリング
- フィルタリングされたコンテキストと問い合わせがLLMとプロンプトに渡され、応答を生成
- データを製品体験の一部として有効活用できる
- RAGの主な利点:
- 更新された情報を提供:
- LLMは事前学習データに制約があるため、古いまたは不正確な応答になる可能性がある
- RAGは外部情報ソースにアクセスして最新の応答を提供する
- 事実性の強化:
- LLMが正確な情報を提供できない問題をRAGが補完
- 選別されたナレッジベースを活用して信頼性の高い情報を提供
- 出典の提示:
- LLMの応答に引用や注釈を追加可能
- ユーザーの信頼向上
- 更新された情報を提供:
3. 学習および推論性能向上のためのデータキュレーション
- データキュレーション: 最適な学習および推論性能のためにデータセットをフィルタリングして構成するプロセス
- 主な作業:
- テキスト分類
- NSFWフィルターの適用
- データの重複除去
- バッチサイズの最適化
- 性能ベースのソース最適化
- 合成データによるデータ拡張
- 主な作業:
- Meta Llama-3発表でのインサイト:
- 学習データキュレーション:
- "最高の言語モデルを学習させるためには、高品質で大規模なデータセットのキュレーションが重要"
- Metaは次のようなデータフィルタリングパイプラインを開発:
- ヒューリスティックフィルター
- NSFWフィルター
- 意味的重複除去
- データ品質を予測するテキスト分類器
- 微調整データキュレーション:
- "モデル品質の最大の改善は、データを慎重にキュレーションし、人間アノテーターの注釈を複数の品質保証段階でレビューすることで達成された"
- 学習データキュレーション:
- データキュレーションの効果:
- Meta AI研究チームによると:
- キュレーションは学習時間を最大20%短縮
- ダウンストリーム精度を改善
- インターネットデータ枯渇の状況でもモデル性能改善の経路を提供
- Meta AI研究チームによると:
- 今後の方向性:
- モデル学習と微調整のために、自動化された高品質データフィルター、重複除去、分類器が重要
- Datology AIのような企業がこれを実現しようと取り組んでいる
4. AIのためのデータ保存
- AIデータを保存する方法には3つの主要トレンドがある:
- ベクターデータベース
- データレイクの台頭
- レイクハウスへの投資増加
- ベクターデータベースの重要性:
- ベクターデータベースはAIブームの中核技術の1つとして注目されている
- データ埋め込み(数値表現)の保存に適している:
- 非構造化データ(画像、音声、動画など)を数値に変換して保存
- 意味検索(例: "dog" を検索すると "wolf" や "puppy" を返す)をサポート
- ベクターデータベースの形態:
- ネイティブなベクターデータベース: ベクター保存専用に設計
- 既存データベース拡張型: 既存データベースにベクター対応機能を追加
- 活用事例: LLMのパーソナライズ
- 企業のカスタムデータをベクトル埋め込みとして保存し、検索可能にする
- AIエージェントがこの構造を活用してカスタマイズされた体験を提供
- データレイクおよびレイクハウス
- データレイクの台頭:
- ほとんどの企業が大規模データをデータレイクに保存
- カスタムAI開発のためにデータレイク活用は不可欠
- レイクハウスアーキテクチャ:
- データレイクを効果的に管理し、問い合わせできるアーキテクチャを提供
- オープンテーブルフォーマットでデータを構成:
- Iceberg、Delta Lake、Hudiなどを活用
- データ整理とクエリ性能を向上
- Databricksの役割:
- DatabricksはTabularを買収し、Delta LakeとIcebergの開発チームを統合
- 競合の参入を難しくし、レイクハウス技術の発展を主導
- データレイクの台頭:
5. AIメモリ
- AIメモリの台頭:
- ChatGPTのメモリ機能発表以降、AIメモリが主要な議論テーマとして浮上
- 標準的なAIシステムには、強力なエピソード記憶や相互作用間の連続性が欠けている:
- 現在のシステムは一種の短期記憶喪失状態にある
- 複雑な逐次推論やマルチエージェントシステムにおける知識共有に制約がある
- マルチエージェントシステムにおけるメモリ
- マルチエージェントシステムへと発展するにつれ、エージェント間メモリ管理システムが必要
- 機能要件:
- エージェントごとに記憶の保存とセッション間アクセスを支援
- アクセス制御とプライバシー保護を含む
- エージェント間のメモリプーリング:
- あるエージェントが別のエージェントの経験を活用可能
- 意思決定能力を向上
- 階層型メモリが必要:
- アクセス頻度、重要度、コストに応じてメモリを階層的に保存
- MemGPT: AIメモリ管理を先導するフレームワーク
- MemGPTのビジョン: LLMが次世代オペレーティングシステム(OS)の進化を導くという目標
- アーキテクチャ概要:
- メモリの種類:
- 主要コンテキストメモリ: 主記憶(RAM)に類似
- 外部コンテキストメモリ: ディスクメモリ/ディスクストレージに類似
- メモリの種類:
- AIメモリの重要性
- パーソナライズ、学習、内省(reflection)を支援し、AIアプリケーションの発展に不可欠
- エージェント間の協調と記憶共有を通じて、複雑なタスクを解決する能力を向上
AIワークロードの機会
- AIワークロードとデータインフラ:
- GenAIの台頭によってデータインフラのあらゆる側面が変化したわけではないが、次のような技術の登場は非常に興味深い発展である:
- 非構造化データの抽出とパイプライニング
- Retrieval-Augmented Generation(RAG)
- データキュレーション
- データ保存
- AIメモリ
- GenAIの台頭によってデータインフラのあらゆる側面が変化したわけではないが、次のような技術の登場は非常に興味深い発展である:
- Felicisの投資戦略
- AIとデータインフラの未来に集中:
- データおよびインフラレイヤー関連スタートアップに投資
- 主な投資事例:
- Datology: データキュレーション
- Metaplane: データオブザーバビリティ
- MotherDuck: サーバーレスデータウェアハウス
- Weights & Biases: 実験追跡ツール
- AIとデータインフラの未来に集中:
- AI市場の成長可能性
- 拡張可能性:
- AI市場はチャットボットからマルチエージェントワークフローまで広範に拡大中
- 現在はまだ始まりにすぎず、今後さらに多くの発展可能性がある
- データソリューションの重要性:
- 成功するAIアプリケーションのためにはデータソリューションが中核
- AIワークロードを支える大規模データビジネスが構築される見通し
- 拡張可能性:
まだコメントはありません。