- 動画学習およびマルチモーダル認識研究を支援するための基盤データセットとベンチマーク
- 参加者のウェアラブルカメラを通じて、一人称の "Egocentric(自己中心的)" 視点と、参加者を取り囲むカメラによる複数の "Exocentric(外部中心的)" 視点を同時にキャプチャ
- 2つの視点は相補的で、Ego は参加者が見聞きするものを、Exo は周囲の場面と文脈を明らかにする
- この2つの観点を組み合わせることで、AIモデルに複雑な人間の技能に対する新たな視点を提供できる
- Meta の FAIR(Fundamental Artificial Intelligence Research)、Project Aria、そして15の大学パートナーによる2年間の取り組み
- 米国、日本、コロンビア、シンガポール、インド、カナダにいる800人以上の熟練参加者の協力を得てキャプチャ
- 1,400時間以上の動画を含むデータと、新しいベンチマークタスクに対するアノテーションをオープンソースとして公開
- Ego-Exo4D は、スポーツ、音楽、料理、ダンス、自転車修理などの熟練した人間活動に焦点を当てている
- AI が動画から人間の熟練度を理解する能力の発展は、多くのアプリケーションを可能にし得る
- 例えば AR システムでは、スマートグラスを装着した人が仮想 AI コーチの案内によって新しい技能を素早く習得できる
- Ego-Exo4D は、時間同期された一人称および三人称動画としては最大の公開データセット
- このデータセットを構築するために多様な分野の専門家を募集し、現実世界の専門家たちが参加
- Ego-Exo4D は多視点であるだけでなくマルチモーダルなデータセットでもあり、Meta の Aria グラスでキャプチャされたすべての ego 動画には、時間的に整列した7チャネル音声、慣性計測装置(IMU)、2台の広角モノクロカメラなどが含まれる
まだコメントはありません。