17 ポイント 投稿者 xguru 2024-04-12 | まだコメントはありません。 | WhatsAppで共有
  • 機械学習のためのデータパイプラインを、簡単に構築・デプロイ・管理・監視できるオープンソースのエンドツーエンド特徴量プラットフォーム
  • 現在、Airbnb内のすべての主要なMLアプリケーションと、Stripeの主要なユースケースで使用されている

主な機能

  • 多様なソースからデータを収集可能: イベントストリーム、DBテーブルのスナップショット、変更データストリーム、サービスエンドポイント、ウェアハウステーブルなどを、緩やかに変化するディメンション、ファクト、またはディメンションテーブルとしてモデリングして利用可能
  • オンラインおよびオフラインのコンテキストで結果を生成: オンラインではスケーラブルな低遅延エンドポイントとして、オフラインでは学習データ生成のためのHiveテーブルとして提供
  • リアルタイムまたはバッチの正確性を選択可能:
    • 結果をTemporalまたはSnapshotの正確性で構成可能
    • Temporalは、オンラインコンテキストでリアルタイムに特徴量の値を更新し、オフラインコンテキストで特定時点に対応する特徴量を生成することを意味する
    • Snapshot正確性は、特徴量が毎日深夜に1回更新されることを意味する
  • 生データから学習データセットをバックフィル可能: モデル学習のために数か月分の特徴量ログが蓄積されるのを待つ必要がない
  • 強力なPython APIを提供: データソースの種類、鮮度、コンテキストなどをAPIレベルの抽象化として提供し、group-byjoinselect などの直感的なSQL基本要素と強力な拡張機能を組み合わせて利用可能
  • 自動化された特徴量モニタリング: 学習データ品質の理解、学習-サービング不一致の測定、特徴量ドリフトの監視などのためのモニタリングパイプラインを自動生成可能

開発の背景

  • Chrononは、ML実務者がモデリングそのものよりも、モデルを支えるデータ管理に大半の時間を費やしてしまうという一般的な課題を解消するために開発された

従来アプローチの限界

  1. オフライン-オンライン複製方式

    • ML実務者は、データウェアハウス内のデータでモデルを学習させた後、オンライン環境でその特徴量を複製する方法を模索する
    • 長所: データソースや大規模データ変換のための強力なツールなど、データウェアハウスを最大限に活用できる
    • 短所: オンライン推論向けのモデル特徴量を提供する明確な方法がないため、不一致やラベルリークが発生し、モデル性能に深刻な影響を与える
  2. ロギングして待つ方式

    • ML実務者は、モデル推論が実行されるオンラインサービング環境で利用可能なデータから始めて、関連する特徴量をデータウェアハウスに記録する
    • 十分なデータが蓄積されたら、ログからモデルを学習させ、同じデータでサービングする
    • 長所: 一貫性が保証され、リークの可能性が低い
    • 短所: 長い待ち時間のため、変化するユーザー行動に迅速に対応しにくい

Chrononのアプローチ

  • Chrononは、ML実務者が特徴量を一度定義するだけで、モデル学習のためのオフラインフローと、モデル推論のためのオンラインフローの両方を動かせるようにする
  • さらに、特徴量チェイニング、可観測性、データ品質、特徴量の共有と管理のための強力なツールを提供する
  • これにより、従来アプローチの長所を活かしつつ、短所を補えるようになる

まだコメントはありません。

まだコメントはありません。