Chronon - Airbnbが公開したオープンソースのML特徴量プラットフォーム

xguru · 2024-04-12T09:48:03+09:00

機械学習のためのデータパイプラインを、簡単に構築・デプロイ・管理・監視できるオープンソースのエンドツーエンド特徴量プラットフォーム現在、Airbnb内のすべての主要なMLアプリケーションと、Stripeの主要なユースケースで使用されている主な機能多様なソースからデータを収集可能: イベントストリーム、DBテーブルのスナップショット、変更データストリーム、サービスエンドポイント、ウェアハウステーブルなどを、緩やかに変化するディメンション、ファクト、またはディメンションテーブルとしてモデリングして利用可能オンラインおよびオフラインのコンテキストで結果を生成: オンラインではスケーラブルな低遅延エンドポイントとして、オフラインでは学習データ生成のためのHiveテーブルとして提供リアルタイムまたはバッチの正確性を選択可能: 結果をTemporalまたはSnapshotの正確性で構成可能 Temporalは、オンラインコンテキストでリアルタイムに特徴量の値を更新し、オフラインコンテキストで特定時点に対応する特徴量を生成することを意味する Snapshot正確性は、特徴量が毎日深夜に1回更新されることを意味する生データから学習データセットをバックフィル可能: モデル学習のために数か月分の特徴量ログが蓄積されるのを待つ必要がない強力なPython APIを提供: データソースの種類、鮮度、コンテキストなどをAPIレベルの抽象化として提供し、group-by、join、select などの直感的なSQL基本要素と強力な拡張機能を組み合わせて利用可能自動化された特徴量モニタリング: 学習データ品質の理解、学習-サービング不一致の測定、特徴量ドリフトの監視などのためのモニタリングパイプラインを自動生成可能開発の背景 Chrononは、ML実務者がモデリングそのものよりも、モデルを支えるデータ管理に大半の時間を費やしてしまうという一般的な課題を解消するために開発された従来アプローチの限界オフライン-オンライン複製方式 ML実務者は、データウェアハウス内のデータでモデルを学習させた後、オンライン環境でその特徴量を複製する方法を模索する長所: データソースや大規模データ変換のための強力なツールなど、データウェアハウスを最大限に活用できる短所: オンライン推論向けのモデル特徴量を提供する明確な方法がないため、不一致やラベルリークが発生し、モデル性能に深刻な影響を与えるロギングして待つ方式 ML実務者は、モデル推論が実行されるオンラインサービング環境で利用可能なデータから始めて、関連する特徴量をデータウェアハウスに記録する十分なデータが蓄積されたら、ログからモデルを学習させ、同じデータでサービングする長所: 一貫性が保証され、リークの可能性が低い短所: 長い待ち時間のため、変化するユーザー行動に迅速に対応しにくい Chrononのアプローチ Chrononは、ML実務者が特徴量を一度定義するだけで、モデル学習のためのオフラインフローと、モデル推論のためのオンラインフローの両方を動かせるようにするさらに、特徴量チェイニング、可観測性、データ品質、特徴量の共有と管理のための強力なツールを提供するこれにより、従来アプローチの長所を活かしつつ、短所を補えるようになる

(github.com/airbnb)

17 ポイント投稿者 xguru 2024-04-12 | まだコメントはありません。 | WhatsAppで共有

機械学習のためのデータパイプラインを、簡単に構築・デプロイ・管理・監視できるオープンソースのエンドツーエンド特徴量プラットフォーム
現在、Airbnb内のすべての主要なMLアプリケーションと、Stripeの主要なユースケースで使用されている

主な機能

多様なソースからデータを収集可能: イベントストリーム、DBテーブルのスナップショット、変更データストリーム、サービスエンドポイント、ウェアハウステーブルなどを、緩やかに変化するディメンション、ファクト、またはディメンションテーブルとしてモデリングして利用可能
オンラインおよびオフラインのコンテキストで結果を生成: オンラインではスケーラブルな低遅延エンドポイントとして、オフラインでは学習データ生成のためのHiveテーブルとして提供
リアルタイムまたはバッチの正確性を選択可能:
- 結果をTemporalまたはSnapshotの正確性で構成可能
- Temporalは、オンラインコンテキストでリアルタイムに特徴量の値を更新し、オフラインコンテキストで特定時点に対応する特徴量を生成することを意味する
- Snapshot正確性は、特徴量が毎日深夜に1回更新されることを意味する
生データから学習データセットをバックフィル可能: モデル学習のために数か月分の特徴量ログが蓄積されるのを待つ必要がない
強力なPython APIを提供: データソースの種類、鮮度、コンテキストなどをAPIレベルの抽象化として提供し、group-by、join、select などの直感的なSQL基本要素と強力な拡張機能を組み合わせて利用可能
自動化された特徴量モニタリング: 学習データ品質の理解、学習-サービング不一致の測定、特徴量ドリフトの監視などのためのモニタリングパイプラインを自動生成可能

開発の背景

Chrononは、ML実務者がモデリングそのものよりも、モデルを支えるデータ管理に大半の時間を費やしてしまうという一般的な課題を解消するために開発された

従来アプローチの限界

オフライン-オンライン複製方式
- ML実務者は、データウェアハウス内のデータでモデルを学習させた後、オンライン環境でその特徴量を複製する方法を模索する
- 長所: データソースや大規模データ変換のための強力なツールなど、データウェアハウスを最大限に活用できる
- 短所: オンライン推論向けのモデル特徴量を提供する明確な方法がないため、不一致やラベルリークが発生し、モデル性能に深刻な影響を与える
ロギングして待つ方式
- ML実務者は、モデル推論が実行されるオンラインサービング環境で利用可能なデータから始めて、関連する特徴量をデータウェアハウスに記録する
- 十分なデータが蓄積されたら、ログからモデルを学習させ、同じデータでサービングする
- 長所: 一貫性が保証され、リークの可能性が低い
- 短所: 長い待ち時間のため、変化するユーザー行動に迅速に対応しにくい

Chrononのアプローチ

Chrononは、ML実務者が特徴量を一度定義するだけで、モデル学習のためのオフラインフローと、モデル推論のためのオンラインフローの両方を動かせるようにする
さらに、特徴量チェイニング、可観測性、データ品質、特徴量の共有と管理のための強力なツールを提供する
これにより、従来アプローチの長所を活かしつつ、短所を補えるようになる