16 ポイント 投稿者 xguru 2024-11-25 | まだコメントはありません。 | WhatsAppで共有

> "私たちは今、新たな産業革命の始まりにいる。電力を生産する代わりに人工知能を生み出している。.. [オープンソース]はあらゆる企業が人工知能企業になれるようにする" - ジェンスン・フアン

  • 文書から情報を抽出すること自体は新しい概念ではない。しかし生成AI(GenAI)は大量の高品質データを必要とする
  • 学習と推論の両方においてデータが重要であり、データの規模だけでなく、テキストやテーブルデータから動画、画像、音声へと対象が拡大している
  • 衛星画像やロボットのセンサーデータなど、空間データの増加も観測されている
  • データレイヤーにおいて、AIによって最も即座に再創造されうる新しい領域は何だろうか?
    • 非構造化データの抽出とパイプライン、Retrieval-Augmented Generation(RAG)、データキュレーション、データストレージ、AIメモリ
  • この記事の目的は、AIデータインフラの環境を分析し、最新トレンドを共有し、最も有望なイノベーション領域について語ることにある

AIデータインフラの現状

  • AIデータのバリューチェーンにおけるデータフローを簡潔に可視化し、データ学習および推論プロセスの流れを説明したい
  • データインフラのバリューチェーンを6つの主要領域に分類
    • データソース(Sources)
    • データ取り込みと変換(Ingestion & Transformation)
    • 保存(Storage)
    • 学習(Training)
    • 推論(Inference)
    • データサービス(Data Services)

データソース

  • アプリデータ: Salesforce、ServiceNowなどから抽出
  • リアルタイムデータ: センサー、製造、医療データ
  • OLTPデータベース: Oracle、MongoDBのようなトランザクションデータ
  • 合成データ: 現実世界で収集していない人工生成データ(e.g., Mostly AI, Datagen, Tonic)
    • コスト効率が高く、データコンプライアンスの面で有利
    • ただし、統計的な外れ値データの表現が不十分で、モデル性能の最適化には限界がある
  • Webデータ: Webスクレイピングを通じて公開データを収集(e.g., Browse AI, Apify)
    • 大規模データモデルの学習に不可欠だが、公開データが枯渇する可能性がある(2026〜2032年と予想)

データ取り込みと変換

  • データパイプラインは、データの出発地から目的地へデータを転送し、分析可能な状態に変換するプロセス
    • ETL/ELT: 従来型の方式(バッチ処理、ストリーミング処理)
    • 特徴量エンジニアリング/パイプライン: MLでは主にテーブルデータを処理
    • 非構造化データパイプライン: データ抽出、変換、保存プロセスを統合して非構造化データを整理・保存
  • パイプラインの種類
    • バッチ処理: 一定時間間隔でデータを抽出してロード
    • ストリーミング処理: データをリアルタイムでロード(Kafka、Flinkなど)
  • ツールとフレームワーク
    • ストリーミング(Kafka、Confluent)、処理エンジン(Databricks、Flink)、オーケストレーションツール(Astronomer、Dagster、Airflow、Prefectなど)
    • ラベリングツール: LabelBox、Scale AIなど(テストデータのラベリングが重要)
      • バッチ: ETL(Airbyte、Fivetran)、Transform(dbt、coalesce)
      • 非構造化データ処理: Datavolo、Unstructured、LlamaIndexなど

データ保存

  • 従来のアプローチ: データウェアハウスに保存
  • AI活用データ:
    • データレイクとレイクハウス構造を活用
    • ベクターデータベースを通じてデータ埋め込みを保存
  • 主要ツール:
    • データレイク: Databricks、Onehouse、Tabular、Amazon S3、GCSなど
      • ベクターDB: Pinecone、Chroma、Milvus、Weavieteなど

モデル学習

  • 学習方式:
    • 教師あり学習、教師なし学習、強化学習
  • 大規模言語モデル(LLM)の学習プロセス:
    • 事前学習: 教師なし学習でデータのパターンを認識
    • 教師あり学習: 性能を最適化
    • 強化学習(RLHF): 人間のフィードバックによる性能向上
  • 検証と評価:
    • 正確性、精度、損失最小化など、モデルの適合性を評価
  • 最終段階:
    • セキュリティテスト、ガバナンス、コンプライアンスの確認
  • 主要ツール:
    • Training: TensorFlow、Modular
      • Evaluation: neptune.ai、Weights & Biases
      • MLOps: Databricks、H2O.ai、DataRobot、Dataiku、DOMINO
      • Model: OpenAI、Cohere、Mistral AI、Runway

モデル推論

  • プロセス:
    • プロンプト入力 → トークン化/ベクトル化 → データ処理 → 出力生成
  • カスタマイズ:
    • ベクターデータベースとLLMの連携
    • ユーザーのコンテキストを反映した固有の結果を生成
  • 必須の考慮事項:
    • データセキュリティ、モデル品質、コンプライアンス
  • 主要ツール:
    • Tooling: ANON、E2B
    • Memory: MemGPT、cognee.ai
    • RAG Framework: LangCHain、LlamaIndex、contextual.ai、databricks
    • Agent/App: ChatGPT、Claude、character.ai、Decagon、NormAi

データサービス

  • カテゴリ:
    • データセキュリティ: アクセス制御、データ漏えい防止(Rubrik、eureka、imperva、sentra、Dig、Cyera、Varonis、BigID)
    • データ可視性: データパイプラインの品質と性能を監視(Anomalo、datologyai、OBSERVE、MonteCarlo、Cleanlab、Scale AI、onum、metaplane)
    • データカタログ: メタデータの集中化、データ資産の整理(atlan、Alation、Collibra、Informatica、Acryl Data、CastorDoc、select star、data.world)
  • 結論:
    • データがうまく整理されるほど、セキュリティ、可視性、管理は効率的になる

[AIによるデータ再構成]

AIによって、データインフラの次の領域でイノベーションが観測されている:

1. AIエージェントおよびアプリケーション向けの非構造化データパイプライン

  • 非構造化データパイプラインの台頭:
    • 対話型AIやエージェントアプリケーションで内部の非構造化データを活用しようとする需要が増加
    • 非構造化データパイプラインには、従来のデータパイプラインと似たプロセスが含まれる: データ抽出、変換、インデキシング、保存
  • 主要データソース:
    • PDFテキスト、ナレッジベース、画像など
    • 主に対話型AIのユースケースを支えるデータ
  • 差別化要素:
    • 変換段階で既存パイプラインとの違いが生じる:
      • データのチャンク化(chunking): データを小さな単位に分割
      • メタデータ抽出: インデキシングに必要なデータを生成
      • 埋め込み: 各データチャンクをベクトル形式に変換して保存
  • 成功要因:
    • チャンク化戦略と埋め込みモデルの選択は、データ検索精度に大きな影響を与える
    • ドメイン特化型埋め込みモデルの登場: たとえばコードや法務コンテンツに特化したモデル
  • ベクター互換データベースの活用:
    • 非構造化データを保存し、問い合わせ可能な形式へ変換
    • RAG(Retrieval-Augmented Generation)やエージェントを通じてLLMをパーソナライズ可能
  • 主要な観察
    • チームはさまざまなチャンク化戦略を試している
    • ドメイン別に特化した埋め込みモデルが徐々に増え、精度と性能の改善に寄与している
    • 企業はデータを簡単に問い合わせできる形式へ変換するツールを探している

2. Retrieval-Augmented Generation(RAG)

  • RAG概要:
    • RAGは、LLMアプリケーションの効率を改善するためにカスタムデータを活用するアーキテクチャワークフロー
    • 動作方式:
      • データをロードし、問い合わせ処理のために「インデキシング」する
      • 問い合わせはインデックスを基に最も関連性の高いデータをフィルタリング
      • フィルタリングされたコンテキストと問い合わせがLLMとプロンプトに渡され、応答を生成
    • データを製品体験の一部として有効活用できる
  • RAGの主な利点:
    • 更新された情報を提供:
      • LLMは事前学習データに制約があるため、古いまたは不正確な応答になる可能性がある
      • RAGは外部情報ソースにアクセスして最新の応答を提供する
    • 事実性の強化:
      • LLMが正確な情報を提供できない問題をRAGが補完
      • 選別されたナレッジベースを活用して信頼性の高い情報を提供
    • 出典の提示:
      • LLMの応答に引用や注釈を追加可能
      • ユーザーの信頼向上

3. 学習および推論性能向上のためのデータキュレーション

  • データキュレーション: 最適な学習および推論性能のためにデータセットをフィルタリングして構成するプロセス
    • 主な作業:
      • テキスト分類
      • NSFWフィルターの適用
      • データの重複除去
      • バッチサイズの最適化
      • 性能ベースのソース最適化
      • 合成データによるデータ拡張
  • Meta Llama-3発表でのインサイト:
    • 学習データキュレーション:
      • "最高の言語モデルを学習させるためには、高品質で大規模なデータセットのキュレーションが重要"
      • Metaは次のようなデータフィルタリングパイプラインを開発:
        • ヒューリスティックフィルター
        • NSFWフィルター
        • 意味的重複除去
        • データ品質を予測するテキスト分類器
    • 微調整データキュレーション:
      • "モデル品質の最大の改善は、データを慎重にキュレーションし、人間アノテーターの注釈を複数の品質保証段階でレビューすることで達成された"
  • データキュレーションの効果:
    • Meta AI研究チームによると:
      • キュレーションは学習時間を最大20%短縮
      • ダウンストリーム精度を改善
      • インターネットデータ枯渇の状況でもモデル性能改善の経路を提供
  • 今後の方向性:
    • モデル学習と微調整のために、自動化された高品質データフィルター、重複除去、分類器が重要
    • Datology AIのような企業がこれを実現しようと取り組んでいる

4. AIのためのデータ保存

  • AIデータを保存する方法には3つの主要トレンドがある:
    • ベクターデータベース
    • データレイクの台頭
    • レイクハウスへの投資増加
  • ベクターデータベースの重要性:
    • ベクターデータベースはAIブームの中核技術の1つとして注目されている
    • データ埋め込み(数値表現)の保存に適している:
      • 非構造化データ(画像、音声、動画など)を数値に変換して保存
      • 意味検索(例: "dog" を検索すると "wolf" や "puppy" を返す)をサポート
    • ベクターデータベースの形態:
      • ネイティブなベクターデータベース: ベクター保存専用に設計
      • 既存データベース拡張型: 既存データベースにベクター対応機能を追加
    • 活用事例: LLMのパーソナライズ
      • 企業のカスタムデータをベクトル埋め込みとして保存し、検索可能にする
      • AIエージェントがこの構造を活用してカスタマイズされた体験を提供
  • データレイクおよびレイクハウス
    • データレイクの台頭:
      • ほとんどの企業が大規模データをデータレイクに保存
      • カスタムAI開発のためにデータレイク活用は不可欠
    • レイクハウスアーキテクチャ:
      • データレイクを効果的に管理し、問い合わせできるアーキテクチャを提供
      • オープンテーブルフォーマットでデータを構成:
        • Iceberg、Delta Lake、Hudiなどを活用
      • データ整理とクエリ性能を向上
    • Databricksの役割:
      • DatabricksはTabularを買収し、Delta LakeとIcebergの開発チームを統合
      • 競合の参入を難しくし、レイクハウス技術の発展を主導

5. AIメモリ

  • AIメモリの台頭:
    • ChatGPTのメモリ機能発表以降、AIメモリが主要な議論テーマとして浮上
    • 標準的なAIシステムには、強力なエピソード記憶や相互作用間の連続性が欠けている:
      • 現在のシステムは一種の短期記憶喪失状態にある
      • 複雑な逐次推論やマルチエージェントシステムにおける知識共有に制約がある
  • マルチエージェントシステムにおけるメモリ
    • マルチエージェントシステムへと発展するにつれ、エージェント間メモリ管理システムが必要
    • 機能要件:
      • エージェントごとに記憶の保存とセッション間アクセスを支援
      • アクセス制御とプライバシー保護を含む
      • エージェント間のメモリプーリング:
        • あるエージェントが別のエージェントの経験を活用可能
        • 意思決定能力を向上
    • 階層型メモリが必要:
      • アクセス頻度、重要度、コストに応じてメモリを階層的に保存
  • MemGPT: AIメモリ管理を先導するフレームワーク
    • MemGPTのビジョン: LLMが次世代オペレーティングシステム(OS)の進化を導くという目標
    • アーキテクチャ概要:
      • メモリの種類:
        • 主要コンテキストメモリ: 主記憶(RAM)に類似
        • 外部コンテキストメモリ: ディスクメモリ/ディスクストレージに類似
  • AIメモリの重要性
    • パーソナライズ、学習、内省(reflection)を支援し、AIアプリケーションの発展に不可欠
    • エージェント間の協調と記憶共有を通じて、複雑なタスクを解決する能力を向上

AIワークロードの機会

  • AIワークロードとデータインフラ:
    • GenAIの台頭によってデータインフラのあらゆる側面が変化したわけではないが、次のような技術の登場は非常に興味深い発展である:
      • 非構造化データの抽出とパイプライニング
      • Retrieval-Augmented Generation(RAG)
      • データキュレーション
      • データ保存
      • AIメモリ
  • Felicisの投資戦略
    • AIとデータインフラの未来に集中:
      • データおよびインフラレイヤー関連スタートアップに投資
      • 主な投資事例:
        • Datology: データキュレーション
        • Metaplane: データオブザーバビリティ
        • MotherDuck: サーバーレスデータウェアハウス
        • Weights & Biases: 実験追跡ツール
  • AI市場の成長可能性
    • 拡張可能性:
      • AI市場はチャットボットからマルチエージェントワークフローまで広範に拡大中
      • 現在はまだ始まりにすぎず、今後さらに多くの発展可能性がある
    • データソリューションの重要性:
      • 成功するAIアプリケーションのためにはデータソリューションが中核
      • AIワークロードを支える大規模データビジネスが構築される見通し

まだコメントはありません。

まだコメントはありません。