WorldGen – テキストで没入型3D世界を生成

(meta.com)

3 ポイント投稿者 GN⁺ 2025-11-24 | 1件のコメント | WhatsAppで共有

MetaのWorldGenは、単一のテキストプロンプトから探索可能な3D世界を自動生成するエンドツーエンド生成AIシステム
手続き的推論、拡散ベースの3D生成、オブジェクト認識によるシーン分解を組み合わせ、幾何学的に一貫し視覚的に豊かな環境を構築
生成プロセスは計画(Planning)、再構成(Reconstruction)、分解(Decomposition)、精緻化(Refinement) の4段階で構成
生成結果はUnity、Unrealなど標準的なゲームエンジンと互換性があり、別途変換プロセスなしで活用可能
複雑で高コストな3Dコンテンツ制作を誰でも可能にし、効率化する潜在力を持つ

WorldGenの概要

WorldGenは「cartoon medieval village」や「sci-fi base station on Mars」のようなテキスト入力だけで、インタラクティブな3D世界を数分で生成
- 生成された世界はスタイルとテーマの一貫性を保ちつつ、キャラクターが自由に移動できる構造で接続される
生成AI技術の進展を背景に、単一のテキストまたは画像プロンプトから完全な3D環境を構築可能

技術構成と生成段階

WorldGenは、手続き的なブロックアウト生成、Navmesh抽出、参照画像生成を含む計画段階から始まる
その後、画像から3Dへの変換、Navmeshベースのシーン生成、基礎テクスチャ生成を行う再構成段階へ進む
AutoPartGenを活用したシーン分解とデータキュレーションによって詳細要素を分離
最後に、画像強調、メッシュ精緻化、テクスチャリングモデルによる精緻化段階を実行

従来手法との違い

従来システムは**単一視点(viewpoint)**中心で生成するため、中心部から離れると品質が急激に低下
WorldGenは50×50メートル規模の完全なテクスチャ付きシーンを生成し、スタイルと幾何学的一貫性を維持
今後はさらに大規模な世界の生成を目指して研究を進めている

互換性と活用可能性

現時点では研究段階であり開発者には公開されていないが、生成されたコンテンツはUnity、Unrealなどでそのまま利用可能
別途レンダリングパイプライン変換を行う必要はない

限界と今後の方向性

現行モデルには空間サイズと**生成遅延(latency)**の面で改善の余地がある
今後のバージョンではより大きな空間生成と高速化を目標とする

産業的意義

3Dコンテンツ制作の複雑さとコスト負担を減らし、非専門家でも仮想世界を構築できる可能性を示す
MetaがConnectイベントで示した「コードを1行も書かずに誰もが仮想世界を作れる未来」というビジョンと一致

謝辞

プロジェクトはReality Labs 3D GenAIチームが担当
主な貢献者: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn など（†はプロジェクトリードを示す）

1件のコメント

GN⁺ 2025-11-24

Hacker Newsの意見

面白いデモではあるが、建物の中には入れず、建物の大きさや村の配置もほとんど同じで、視覚的な不一致も多い
結局、似たような箱をグリッド上に配置して、その間を歩き回る程度に見える
進歩が段階的に起こるのは分かるが、他のワールド生成デモと比べるとあまりに小さな一歩に思える
- AIが作った村は、まるで厳格な都市計画規制を受けたかのように見える
  すべての建物がグリッド上に一定間隔で配置されており、高さ制限まであるようだ
  現実的なオープンワールドゲーム（GTA、Cyberpunkなど）には、わざと行き止まりや鍵のかかったドアのような**「設計された雑然さ」**が存在する
  すべての道が面白い場所につながっていたら、かえって探索の面白さは失われる
- このデモは、World Labsのような他の例よりもコンテンツ制作パイプラインで有用かもしれない
  明示的なアセットを使う方式なら、ゲーム制作にはより適している可能性がある
  Metaはこの分野の重要論文を数多く出しており、Hyperscapeもあるので、別方向の実験的な試みと見なせる
- 動く実際のデモリンクが見当たらない
- たいていのゲームでも建物の中には入れない。Cyberpunkでもドアが開くのはごく一部だ
  一般ユーザーもこうしたworldgenエンジンを自分で使える日がいつ来るのか気になる
  Google、Meta、Tencentがデモばかり見せて実際には公開しない理由は何なのだろうと思う
これは既存のGenAI技術を組み合わせたエンジニアリングパイプラインのように見える
成果物もSOTA級ではなく、進歩というより行き止まりのアプローチに思える
本当の革新は、テクスチャ付きメッシュをエンドツーエンド学習モデルで直接生成することだろうが、それができていないということは、まだ中核技術が不足していることを意味するのかもしれない
それでも今後のモデル学習用データセットをブートストラップする用途には使えそうだ
- 現在この分野のSOTA技術が何なのか気になる
- 開発者たちは上層部の要求に応えようと最善を尽くしたのだろうが、大企業のイノベーションの限界を示す事例に見える
これは「ワールドモデル」というより3DAssetGenに近い
実際の世界を生成しているのではなく、単にアセットを組み合わせたレベルだ
手作業で作られたワールドのほうがはるかに良く、RPG Makerで作ったゲームより魅力がないほどだ
- 実際には小さな正方形の区画だけを生成しているようだ。こうしたグリッド型ワールドはプレイヤーに不便さを与えるだろう
  それでも初の試みという点では意味があり、AIがメタバース世界制作の障壁を下げられるのではと期待している
  GTAのような小さな島ひとつを作るだけでも莫大な時間と費用がかかる現実を考えればなおさらだ
- ページのどこにも「ワールドモデル」という表現はない
むしろ5ドルのアセットストアで建物モデルを買ったほうがいい
わざわざ数十億ドルを投じてデータセンターを建て、環境を破壊しながらこんなものを作る理由があるのだろうかと思う
- その金でQuaterniusのようなローポリアーティストを支援したほうがいいと思う
  最近の3Dアーティストたちに、無料でアセットを配布する意欲がまだあるのかも気になる
最初の映像の雰囲気がWarcraft 3やDotAを思い出させる
シンプルなマップひとつがオンラインゲームとeスポーツを完全に変えた時代があった
今でははるかに高品質なオンデマンドワールドを作れるのに、あの頃のシンプルなマップのほうがむしろ偉大に感じられる
結局、私たちが欲しいのはもっと良いSimCityでしかないのに、なぜこれほど多くのワールド生成モデルやデータセンターが必要なのか分からない
莫大な電力と水を使って偽物の村を作るのは皮肉だ
私もRed Deadのようなゲームにハマってしまうのが怖くて、あえてコンソールを買っていない
こうした技術が実際に誰の利益になるのか疑問だ
リンクを開いたら404エラーになったので調べてみると、5月にすでに同名のWorldgenプロジェクトがあった
そちらのほうがずっと現実的な3Dシーンをうまく実装しているようだ
- だがあれは実質的に2D画像を3Dのように見せるトリックに近い
  カメラを少し動かしただけですぐ破綻する
論文自体はかなり良かった
個別のメッシュ処理方式に関する興味深い詳細がある
論文リンク
「インタラクティブ」という言葉を何度も使っていたので、ドアを開けたり物を拾ったりする本当の相互作用を期待したが、
実際には一人称視点で見て回れるという意味だった
その定義なら、あらゆる3Dモデルがインタラクティブだと言えてしまう
2D拡散ベースのパノラマ生成 → ポイントクラウド変換 → 3Dリフティング → 2Dインペインティング → 3Dガウシアンスプラッティング最適化
こういう形で画像をつなぎ合わせて3D化したものだ
概念的にはワールドモデルと呼ぶには曖昧なアプローチであり、用語の曖昧さが惜しい

WorldGen – テキストで没入型3D世界を生成

WorldGenの概要

技術構成と生成段階

従来手法との違い

互換性と活用可能性

限界と今後の方向性

産業的意義

謝辞

関連記事

1件のコメント

Hacker Newsの意見