- テキストプロンプトだけでリアルタイムのインタラクティブな3D環境を生成する初の汎用ワールドモデル
- 24fps、720p解像度、数分間の一貫性維持が可能で、従来のGenie 2と比べてインタラクティブ性・写実性・持続性が大幅に改善
- 物理現象、生態系、アニメーション、歴史的・地理的背景など多様なテーマの仮想世界を自然で多彩に生成可能
- Promptable world events機能により、ユーザーがテキストで天候変化やオブジェクト追加などの動的イベントをリアルタイムに制御可能
- エージェント研究向けに設計されており、SIMAエージェントなどと連携して、長期目標の達成や複雑な行動シーケンスのテストが可能
Genie 3: ワールドシミュレーションの革新
ワールドモデル発展の背景
- DeepMindはAIエージェント学習、オープンエンデッド・ラーニング、ロボティクスなどにおけるシミュレーション環境研究を先導してきた
- ワールドモデルは環境の変化とエージェントの行動結果を予測・再現できるAIシステムであり、AGIへ向かう重要な中間段階とみなされている
- Genie 1、2を経て、Genie 3はリアルタイムの相互作用性と視覚的・物理的な一貫性を同時に提供する初のワールドモデルである
Genie 3の主な機能
-
自然および物理現象のモデリング
- 水、光、さまざまな環境相互作用など、現実世界の自然現象をプロンプトだけで自然に実装する
-
複雑な生態系とアニメーション
- 動物の行動や植物の成長など、生態系のダイナミクスと想像力に基づくアニメーション世界の生成が可能
-
歴史的・地理的背景の実装
- 地理的・時代的境界を越えた多様な空間を仮想環境としてリアルタイムに構築できる
-
リアルタイムの相互作用とコントロール
- ユーザー入力に応じて24fps、720pで即座に世界の変化を可視化する
- 過去に訪れた位置や状態を記憶し、数分間にわたって物理的・視覚的な一貫性を維持する
-
Promptable World Events
- テキストプロンプトで天候変化、オブジェクト・キャラクター追加などの環境変化イベントをリアルタイムに発生させられる
- 探索コントロールに加えて、「もしも」のシナリオや非日常的な状況の生成など幅広い応用可能性を提供する
-
エージェント研究と実験
- SIMAなど3D環境に特化したAIエージェントがGenie 3内の世界で複合的な目標を追求し、長期シーケンス遂行能力を検証する
- エージェントの目標はGenie 3に共有されず、行動シーケンスとワールドシミュレーションだけで結果を生成する
技術的課題と成果
- フレームごとの自己回帰生成の過程では、ユーザー入力と過去シーケンスの両方をリアルタイムで反映する必要があるため、高度な技術が求められる
- 従来のNeRFやGaussian Splattingなどとは異なり、Genie 3は明示的な3D表現を持たない純粋な生成ベースであり、はるかに動的で豊かな環境を実装する
限界と課題
- 行動範囲の制限: プロンプトベースの環境変化は多様だが、直接実行可能な行動はまだ限定的
- マルチエージェント相互作用: 複数エージェント間の相互作用を正確にシミュレーションすることは依然として研究課題
- 現実世界の位置再現の限界: 実際の地理空間の完全な正確性は提供しない
- テキストレンダリングの限界: 明示的に入力した場合にのみ明確なテキスト表現が可能
- 相互作用時間の限界: 現時点では数分程度の継続的な相互作用のみをサポート
責任と公開範囲
- Genie 3のオープンエンデッド・リアルタイム生成という特性は新たな安全性・倫理上の問題を伴うため、Responsible Development & Innovation Teamと緊密に連携している
- 当初は限定された研究者・クリエイターグループにのみ研究プレビューとして提供し、フィードバックを通じて段階的な拡大とリスク対応策の整備を進める予定
今後と活用展望
- Genie 3は教育・訓練・AIエージェント学習・性能検証など多様な分野で新たな可能性を提示する
- AGI(汎用人工知能)研究で中核的な役割が期待されており、人類に有益な方向で安全に開発される予定
まだコメントはありません。