- MetaのWorldGenは、単一のテキストプロンプトから探索可能な3D世界を自動生成するエンドツーエンド生成AIシステム
- 手続き的推論、拡散ベースの3D生成、オブジェクト認識によるシーン分解を組み合わせ、幾何学的に一貫し視覚的に豊かな環境を構築
- 生成プロセスは計画(Planning)、再構成(Reconstruction)、分解(Decomposition)、精緻化(Refinement) の4段階で構成
- 生成結果はUnity、Unrealなど標準的なゲームエンジンと互換性があり、別途変換プロセスなしで活用可能
- 複雑で高コストな3Dコンテンツ制作を誰でも可能にし、効率化する潜在力を持つ
WorldGenの概要
- WorldGenは「cartoon medieval village」や「sci-fi base station on Mars」のようなテキスト入力だけで、インタラクティブな3D世界を数分で生成
- 生成された世界はスタイルとテーマの一貫性を保ちつつ、キャラクターが自由に移動できる構造で接続される
- 生成AI技術の進展を背景に、単一のテキストまたは画像プロンプトから完全な3D環境を構築可能
技術構成と生成段階
- WorldGenは、手続き的なブロックアウト生成、Navmesh抽出、参照画像生成を含む計画段階から始まる
- その後、画像から3Dへの変換、Navmeshベースのシーン生成、基礎テクスチャ生成を行う再構成段階へ進む
- AutoPartGenを活用したシーン分解とデータキュレーションによって詳細要素を分離
- 最後に、画像強調、メッシュ精緻化、テクスチャリングモデルによる精緻化段階を実行
従来手法との違い
- 従来システムは**単一視点(viewpoint)**中心で生成するため、中心部から離れると品質が急激に低下
- WorldGenは50×50メートル規模の完全なテクスチャ付きシーンを生成し、スタイルと幾何学的一貫性を維持
- 今後はさらに大規模な世界の生成を目指して研究を進めている
互換性と活用可能性
- 現時点では研究段階であり開発者には公開されていないが、生成されたコンテンツはUnity、Unrealなどでそのまま利用可能
- 別途レンダリングパイプライン変換を行う必要はない
限界と今後の方向性
- 現行モデルには空間サイズと**生成遅延(latency)**の面で改善の余地がある
- 今後のバージョンではより大きな空間生成と高速化を目標とする
産業的意義
- 3Dコンテンツ制作の複雑さとコスト負担を減らし、非専門家でも仮想世界を構築できる可能性を示す
- MetaがConnectイベントで示した「コードを1行も書かずに誰もが仮想世界を作れる未来」というビジョンと一致
謝辞
- プロジェクトはReality Labs 3D GenAIチームが担当
- 主な貢献者: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn など(†はプロジェクトリードを示す)
1件のコメント
Hacker Newsの意見
面白いデモではあるが、建物の中には入れず、建物の大きさや村の配置もほとんど同じで、視覚的な不一致も多い
結局、似たような箱をグリッド上に配置して、その間を歩き回る程度に見える
進歩が段階的に起こるのは分かるが、他のワールド生成デモと比べるとあまりに小さな一歩に思える
すべての建物がグリッド上に一定間隔で配置されており、高さ制限まであるようだ
現実的なオープンワールドゲーム(GTA、Cyberpunkなど)には、わざと行き止まりや鍵のかかったドアのような**「設計された雑然さ」**が存在する
すべての道が面白い場所につながっていたら、かえって探索の面白さは失われる
明示的なアセットを使う方式なら、ゲーム制作にはより適している可能性がある
Metaはこの分野の重要論文を数多く出しており、Hyperscapeもあるので、別方向の実験的な試みと見なせる
一般ユーザーもこうしたworldgenエンジンを自分で使える日がいつ来るのか気になる
Google、Meta、Tencentがデモばかり見せて実際には公開しない理由は何なのだろうと思う
これは既存のGenAI技術を組み合わせたエンジニアリングパイプラインのように見える
成果物もSOTA級ではなく、進歩というより行き止まりのアプローチに思える
本当の革新は、テクスチャ付きメッシュをエンドツーエンド学習モデルで直接生成することだろうが、それができていないということは、まだ中核技術が不足していることを意味するのかもしれない
それでも今後のモデル学習用データセットをブートストラップする用途には使えそうだ
これは「ワールドモデル」というより3DAssetGenに近い
実際の世界を生成しているのではなく、単にアセットを組み合わせたレベルだ
手作業で作られたワールドのほうがはるかに良く、RPG Makerで作ったゲームより魅力がないほどだ
それでも初の試みという点では意味があり、AIがメタバース世界制作の障壁を下げられるのではと期待している
GTAのような小さな島ひとつを作るだけでも莫大な時間と費用がかかる現実を考えればなおさらだ
むしろ5ドルのアセットストアで建物モデルを買ったほうがいい
わざわざ数十億ドルを投じてデータセンターを建て、環境を破壊しながらこんなものを作る理由があるのだろうかと思う
最近の3Dアーティストたちに、無料でアセットを配布する意欲がまだあるのかも気になる
最初の映像の雰囲気がWarcraft 3やDotAを思い出させる
シンプルなマップひとつがオンラインゲームとeスポーツを完全に変えた時代があった
今でははるかに高品質なオンデマンドワールドを作れるのに、あの頃のシンプルなマップのほうがむしろ偉大に感じられる
結局、私たちが欲しいのはもっと良いSimCityでしかないのに、なぜこれほど多くのワールド生成モデルやデータセンターが必要なのか分からない
莫大な電力と水を使って偽物の村を作るのは皮肉だ
私もRed Deadのようなゲームにハマってしまうのが怖くて、あえてコンソールを買っていない
こうした技術が実際に誰の利益になるのか疑問だ
リンクを開いたら404エラーになったので調べてみると、5月にすでに同名のWorldgenプロジェクトがあった
そちらのほうがずっと現実的な3Dシーンをうまく実装しているようだ
カメラを少し動かしただけですぐ破綻する
論文自体はかなり良かった
個別のメッシュ処理方式に関する興味深い詳細がある
論文リンク
「インタラクティブ」という言葉を何度も使っていたので、ドアを開けたり物を拾ったりする本当の相互作用を期待したが、
実際には一人称視点で見て回れるという意味だった
その定義なら、あらゆる3Dモデルがインタラクティブだと言えてしまう
2D拡散ベースのパノラマ生成 → ポイントクラウド変換 → 3Dリフティング → 2Dインペインティング → 3Dガウシアンスプラッティング最適化
こういう形で画像をつなぎ合わせて3D化したものだ
概念的にはワールドモデルと呼ぶには曖昧なアプローチであり、用語の曖昧さが惜しい