- 世界をより現実的に理解することで機械知能を進化させる重要な一歩となるVideo Joint Embedding Predictive Architecture(V-JEPA)モデルを公開しました。
- この物理世界モデルの初期例は、オブジェクト間の詳細な相互作用を検出し理解する能力に優れています。
- 研究者がさらに検討・拡張できるよう、責任あるオープンサイエンスの精神に基づき、このモデルをCreative Commons NonCommercialライセンスで公開しました。
Video JEPA
- V-JEPAは、ビデオの欠損または隠された部分を抽象表現空間で予測しながら学習する非生成モデルです。
- このモデルは、予測不可能な情報を捨てる柔軟性を持つため、学習効率とサンプル効率を1.5倍から6倍まで向上できます。
- V-JEPAはラベルなしデータのみで事前学習され、ラベルは事前学習後に特定のタスクへモデルを適用する際のみ使用されます。
マスキング手法
- V-JEPAは特定タイプのアクションを理解するために訓練されたモデルではなく、さまざまなビデオに対する自己教師あり学習で、世界の動作原理について多くを学習します。
- マスキング戦略は、ビデオの広い領域をまとめて隠すのではなく、空間と時間の両面でビデオの一部をランダムにマスクする代わりに、モデルがシーンを理解して学習するようにします。
効率的な予測
- 抽象表現空間で予測を行うことで、モデルはビデオに含まれる高次元の概念情報に集中でき、ダウンストリームタスクでほとんど重要でない詳細には煩わされません。
- V-JEPAは「凍結評価」で高い性能を示した最初のビデオモデルであり、自己教師あり事前学習済みのエンコーダと予測器をこれ以上触らずに、新しいタスクを学ぶ際に特化した層や小規模ネットワークを効率的かつ高速に訓練します。
未来の研究への道
- 「V」はビデオを意味しますが、現在のV-JEPAモデルは視覚コンテンツのみを扱っています。
- 次のステップとして、視覚コンテンツとオーディオを統合した、よりマルチモーダルなアプローチの導入を検討しています。
- V-JEPAは微細なオブジェクト間の相互作用を識別し、時間とともに起こる詳細なオブジェクト間の相互作用を認識することに優れています。
AMIへの道
- 今までV-JEPAに関する取り組みは主に認識に関するもので、さまざまなビデオストリームの内容を理解して周囲世界の一部コンテキストを得ることでした。
- 次のステップとして、このような予測器や世界モデルを計画や逐次意思決定に使う方法を示したいと考えています。
- V-JEPAは研究モデルであり、今後の応用分野を探索中です。たとえば、V-JEPAが提供するコンテキストは、実践的なAIタスクや将来のARグラス向けにContextual AIアシスタントを構築する作業に役立つ可能性があります。
- 責任あるオープンサイエンスの価値を信じ、他の研究者がこの研究を拡張できるように、V-JEPAモデルをCC BY-NCライセンスで公開しています。
1件のコメント
OpenAIのSoraもそうだし、動画AIも突然めちゃくちゃ進化しているみたいですね。
言語モデルが進化していくうちに、ある瞬間にChatGPTが登場したように、動画AIでもそういう瞬間が来たら面白いと思います。