DeepMindのGenie 2: 大規模な基盤世界モデル

(deepmind.google)

5 ポイント投稿者 GN⁺ 2024-12-05 | 1件のコメント | WhatsAppで共有

Genie 2は、人間またはAIエージェントがキーボードとマウスを使って操作できる、多様な3D環境を生成する基盤世界モデル
ゲームはAI研究で重要な役割を果たしており、Genie 2は無限のカリキュラムを持つ新しい世界でエージェントを訓練・評価できるようにする
機能
- 高速プロトタイピング: Genie 2は多様なインタラクティブ体験をすばやくプロトタイピングできるようにし、研究者が新しい環境を実験できるようにする。
- エージェント配置: Genie 2を使って、AIエージェント向けの豊かで多様な環境をすばやく生成できる。
- モデルアーキテクチャ: 大規模な動画データセットで訓練されたGenie 2は、多様なオブジェクト相互作用、複雑なキャラクターアニメーション、物理法則などをモデリングできる。
- 責任ある開発: Genie 2は、多様な3D環境を生成し、エージェント研究を加速する基盤世界モデルの可能性を示している。
Emergent capabilities
- Genie 2は多様な3D世界を生成でき、オブジェクト相互作用、複雑なキャラクターアニメーション、物理法則などをモデリングできる。
- ユーザーはテキストで世界を説明し、そのアイデアのレンダリングを選択して、新たに生成された世界と相互作用できる。
- 行動制御 : Genie 2はキーボード入力に応じてキャラクターを正しく識別し、移動させる。
- 反実仮想体験の生成 : 同じ開始フレームから多様な経路を生成し、エージェント訓練のための反実仮想的な体験をシミュレーションできる。
- 長期記憶 : Genie 2は視野から外れた世界の一部を記憶し、再び観測可能になると正確にレンダリングできる。
- 多様な環境 : Genie 2は一人称、アイソメトリック、三人称ドライビング動画など、多様な視点を生成できる。
- 3D構造 : 複雑な3Dビジュアルシーンを生成できる。
- オブジェクト相互作用 : 風船を割る、ドアを開ける、爆発物を発射するなど、多様なオブジェクト相互作用をモデリングできる。
- キャラクターアニメーション : 多様な活動を行うキャラクターをアニメーション化できる。
- NPC : 他のエージェントとの複雑な相互作用をモデリングできる。
- 物理法則 : 水の効果、煙の効果、重力、照明などをモデリングできる。
- 実画像からのプレイ : 実画像からのプロンプトを通じて、草地を流れる水や風に揺れる草をモデリングできる。
多様なインタラクティブ体験の高速プロトタイピング
- Genie 2は、新しい環境をすばやく実験・実装し、身体性を持つAIエージェントを訓練・テストできるよう支援する
  - 例: Imagen 3で生成した画像を使い、紙飛行機、ドラゴン、タカ、パラシュートを操縦する多様な環境シミュレーション
- Genie 2の分布外汎化能力により、コンセプトアートや絵を完全なインタラクティブ環境へ変換できる
  - 高速プロトタイピングを通じて創造的プロセスをブートストラップし、環境設計を加速する
Genie 2を活用した評価環境の生成
- Genie 2はAIエージェント向けの豊かで多様な環境をすばやく生成できる
  - 訓練中に接していない新しい評価タスクを生成してエージェントをテストする
- DeepMindがゲーム開発者と協力して開発したSIMAエージェントは、自然言語指示にもとづいて3Dゲーム世界で作業を実行する
  - Genie 2が単一画像プロンプトで3D環境を生成し、SIMAエージェントがキーボードとマウス入力を通じて相互作用する
- 初期段階の研究ではあるが、Genie 2は訓練環境の多様性と汎用性を提供し、身体性エージェントの安全な訓練という課題の解決に寄与すると期待される
- AIエージェントの汎化された訓練を通じて、AGI（汎用人工知能）の発展に向けた基盤を整える
拡散世界モデル
- Genie 2は大規模な動画データセットをもとに学習した 潜在拡散モデル
- フレームはオートエンコーダを経て潜在空間へ変換された後、Transformerベースの動的モデルに渡される
- 学習時には言語モデルで使われるものと似た 因果マスク を適用する
- 自己回帰方式の推論
  - 推論時、Genie 2は過去の潜在フレームと行動データをフレーム単位で自己回帰的にサンプリングする
  - Classifier-Free Guidance 手法を用いて行動制御性を向上させる
- Genie 2は高解像度の3D環境を効率的に生成しつつ、行動制御性を維持する
- 拡散モデルと自己回帰アプローチを組み合わせることで、没入型仮想環境のための次世代技術を提供する
責任ある技術開発
- Genie 2は、多様な3D環境を生成し、エージェント研究を加速する基盤世界モデルの可能性を示している。

1件のコメント

GN⁺ 2024-12-05

Hacker Newsのコメント

このモデルの規模が気になる一方で、技術的な詳細が不足しているのが残念だとする。Googleのアプローチが依然としてクローズドである点も指摘している。ただし、写真とテキストの説明をもとに世界を探索する可能性には驚かされる。
動画および世界生成への圧力が続いているのは興味深いとする。無限に物語を生成するゲームへの関心を示し、将来のインタラクティブなストーリーテリングの黄金時代に期待している。
この技術はゲーム開発には有用でないかもしれないと指摘する。ゲームではインタラクションが重要であり、デザイナーが深く制御する必要がある。世界生成の部分が最も有用だと考えている。
この技術がAGIとロボティクスに大きな進展をもたらすと強調する。人間の脳の働き方に似た機能を機械に追加するための出発点と見なしている。
研究の真の目標は、人間の3D世界理解を超えるモデルの開発だと説明する。これはロボティクスと自動運転車の発展に寄与するだろう。
Genie 2がコンセプトアートの細部を無視している点に失望を表明する。元の美しいエイリアン生物が無視されていることを批判している。
生成AIは柔軟性を提供するが、多くの計算を必要とすると説明する。従来のプログラミングと生成AIの役割について疑問を示している。
この技術の実際の価値に疑問を呈する。高い計算コストと不規則な挙動が問題だと指摘している。
MS Edgeではスクロールが動作しなかったためFirefoxを使ったこと、また動画の視覚的品質が良くないことに言及する。AI研究者が、すでにうまく機能している既存システムを置き換えようとする理由に疑問を抱いている.

DeepMindのGenie 2: 大規模な基盤世界モデル

関連記事

1件のコメント

Hacker Newsのコメント