Google DeepMind、Genie 3ワールドモデルを公開

(deepmind.google)

14 ポイント投稿者 GN⁺ 2025-08-06 | 1件のコメント | WhatsAppで共有

テキストプロンプトだけでリアルタイムのインタラクティブな3D環境を生成する初の汎用ワールドモデル
24fps、720p解像度、数分間の一貫性維持が可能で、従来のGenie 2と比べてインタラクティブ性・写実性・持続性が大幅に改善
物理現象、生態系、アニメーション、歴史的・地理的背景など多様なテーマの仮想世界を自然で多彩に生成可能
Promptable world events機能により、ユーザーがテキストで天候変化やオブジェクト追加などの動的イベントをリアルタイムに制御可能
エージェント研究向けに設計されており、SIMAエージェントなどと連携して、長期目標の達成や複雑な行動シーケンスのテストが可能

Genie 3: ワールドシミュレーションの革新

ワールドモデル発展の背景

DeepMindはAIエージェント学習、オープンエンデッド・ラーニング、ロボティクスなどにおけるシミュレーション環境研究を先導してきた
ワールドモデルは環境の変化とエージェントの行動結果を予測・再現できるAIシステムであり、AGIへ向かう重要な中間段階とみなされている
Genie 1、2を経て、Genie 3はリアルタイムの相互作用性と視覚的・物理的な一貫性を同時に提供する初のワールドモデルである

Genie 3の主な機能

自然および物理現象のモデリング
- 水、光、さまざまな環境相互作用など、現実世界の自然現象をプロンプトだけで自然に実装する
複雑な生態系とアニメーション
- 動物の行動や植物の成長など、生態系のダイナミクスと想像力に基づくアニメーション世界の生成が可能
歴史的・地理的背景の実装
- 地理的・時代的境界を越えた多様な空間を仮想環境としてリアルタイムに構築できる
リアルタイムの相互作用とコントロール
- ユーザー入力に応じて24fps、720pで即座に世界の変化を可視化する
- 過去に訪れた位置や状態を記憶し、数分間にわたって物理的・視覚的な一貫性を維持する
Promptable World Events
- テキストプロンプトで天候変化、オブジェクト・キャラクター追加などの環境変化イベントをリアルタイムに発生させられる
- 探索コントロールに加えて、「もしも」のシナリオや非日常的な状況の生成など幅広い応用可能性を提供する
エージェント研究と実験
- SIMAなど3D環境に特化したAIエージェントがGenie 3内の世界で複合的な目標を追求し、長期シーケンス遂行能力を検証する
- エージェントの目標はGenie 3に共有されず、行動シーケンスとワールドシミュレーションだけで結果を生成する

技術的課題と成果

フレームごとの自己回帰生成の過程では、ユーザー入力と過去シーケンスの両方をリアルタイムで反映する必要があるため、高度な技術が求められる
従来のNeRFやGaussian Splattingなどとは異なり、Genie 3は明示的な3D表現を持たない純粋な生成ベースであり、はるかに動的で豊かな環境を実装する

限界と課題

行動範囲の制限: プロンプトベースの環境変化は多様だが、直接実行可能な行動はまだ限定的
マルチエージェント相互作用: 複数エージェント間の相互作用を正確にシミュレーションすることは依然として研究課題
現実世界の位置再現の限界: 実際の地理空間の完全な正確性は提供しない
テキストレンダリングの限界: 明示的に入力した場合にのみ明確なテキスト表現が可能
相互作用時間の限界: 現時点では数分程度の継続的な相互作用のみをサポート

責任と公開範囲

Genie 3のオープンエンデッド・リアルタイム生成という特性は新たな安全性・倫理上の問題を伴うため、Responsible Development & Innovation Teamと緊密に連携している
当初は限定された研究者・クリエイターグループにのみ研究プレビューとして提供し、フィードバックを通じて段階的な拡大とリスク対応策の整備を進める予定

今後と活用展望

Genie 3は教育・訓練・AIエージェント学習・性能検証など多様な分野で新たな可能性を提示する
AGI（汎用人工知能）研究で中核的な役割が期待されており、人類に有益な方向で安全に開発される予定

1件のコメント

GN⁺ 2025-08-06

Hacker Newsの意見

もしこの分野で働いていたり専門性のある人がいたら、Genie 3がどんな技術やアーキテクチャ、システム設計、計算資源要件で実装されているのか推測して教えてほしい。現時点では公開情報が少ないので、特にこの分野の専門家がどうやって実装を予想したり推論したりするのかを聞いてみたい
数分間の一貫性をリアルタイム720pで実現できるというのは、まったく予想していなかったレベルだ。Genie 3の一貫性は、モデルのスケール拡大によって生まれた emergent capability だと聞いた。つまり、アーキテクチャを意図的に改良したというより、モデルを大きくした結果として偶然生じた性能らしい。制約については、実際に使ってみた人がまとめている（Xリンク）:
- 物理シミュレーションは依然として難しく、心理学で使われる直観的物理実験（ブロック積みなど）では失敗ケースが明確に存在する
- 社会的相互作用や複数エージェントが絡む状況が難しく、1対1の対戦のようなゲームはうまくいかない
- 複雑な指示やゲームロジック（鍵を集めてドアを開けるなど）もうまくいかない
- アクション空間もやはり限定的だ
- 本物のゲームエンジンまではまだ遠いが、確かに未来の一断面を直接見られる機会ではあるこうした限界があるにもかかわらず、ワールドモデルが今後のロボティクスや現実世界のAIで、思った以上に重要な役割を果たしそうだという感覚を与える。未来のロボットは夢の中で学ぶ時代になるのかもしれない
- マルチプレイヤーが、単なるロジスティクスや技術面だけでなく、ゲームプレイの観点でもどう実現できるのか本当に気になる
- ゲームが明らかに主要なユースケースではあるが、根本的にはGoogleの倉庫ロボット訓練用の synthetic data generation を目的として開発されたように見える。関連情報としては The Guardianの記事と、Gemini Robot発売4か月前のHN投稿を参照
- 技術の進歩がこれほど速いとは思わなかった。数か月前に、ワールドモデルによる出力操作がAAAゲームの次の段階だという記事を書いたのだが（ブログ記事）、その時点ではまだ数年先だと思っていた。RockstarがGTA6開発中にワールドモデルに惑わされるだろうと冗談を言っていたが、もうそれほど突飛には聞こえない。GameNGen登場以降の進展を見ると、GTA6の発売より先に逆転してしまうかもしれないとすら思う
- このレベルなら、視覚的には現実とのギャップ（reality gap）を埋められるので、ロボティクスにとって非常に有用なツールになりそうだ。もちろん物理シミュレーションは依然として別の課題だが
- Bitter lesson がまたしても当てはまった瞬間だ
本当に心強い進展だ。おそらくDemisが先月予告していたのはこれだったのだと思う（関連ツイート）。公開されたクリップを見て、技術的な詳細をいくつか推測すると:
1. テクスチャが4フレームごとに「ジャンプ」する現象があるが、これはおそらく時間軸で4倍ダウンサンプリングされたVAEで、最低4フレーム分のインタラクションレイテンシがあることを意味する（VAEがコントロール条件付けをサポートしない限り）。リアルタイム映像は見ていないが、あるシーンでは画面録画とキーボードのb-rollを混ぜて見せている
2. 高速な動きでは16x16の空間ブロッキングが見えるため、VAEの空間軸でも16x16ダウンサンプリングが行われていると推測できる。最初の点と合わせると、毎秒21,600トークン、毎分約130万トークンを処理している計算になる
3. 各クリップの最初のフレームが、それ以降のフレームよりも鮮明でビデオゲームっぽさが少なく見えるので、t2i（text-to-image）+ i2w（image-to-world）が一緒に使われているように思える。t2iは一般データで、i2wはラベル付きコントロールとゲームデータでファインチューニングされたシステムだと推測する。時間が経つほどコントラストや彩度が強くなる傾向があるが、他の自己回帰型ビデオモデルよりはましだ (サンプル動画)
- レイテンシについては、このリアルタイムゲームプレイ映像から、キー入力と被写体の動きの間に約1.1秒（30fpsで約33フレーム）あると計算していた。Genie 3 research preview ユーザーの感想では、「多少の操作遅延はあるが、これはモデル自体というよりサービスを提供するインフラに起因する」と聞いたそうなので、クライアント/サーバーのストリーミング構成によるレイテンシが大きいのだろう
どう動いているのか、もっと公開してほしい。研究者向けの論文ひとつでもあればいいのに。自分の推測では、既存の動画生成モデルに近いが、入力を movement direction や viewangle などで条件付けする方式のように思える。相対入力ではなく絶対入力で、state simulation も一部含まれているかもしれない（ただしデモ映像に物体衝突の物理効果があるように見えるので違うかもしれないし、あるいは2Dで up axis が生成されているだけかもしれない）。明らかにゲームエンジン由来のデータで学習しているようで、スクリーンスペース反射の artifact が見えている。フォトスキャン/スプラットベースのデータも追加しているようで、非現実的な要素の解像度は特に低く見える。デモには目立つ不一致もある:
- ウィングスーツのシーンは画質がより低く見える（おそらく高解像度画像で初期化？）
- 庭園デモでは、各 variation ごとに geometry が違って見える。2本目のホースはあるバージョンにしか現れず、最初に見るたび新しい geometry が即興生成されているようだ
- 学校デモでは、窓の外に半分しかない車が目立ち、反復パターンも現れる（transformer のパラメータが少ないと無限ループ的なパターンが出やすいが、これはスケール可能性があることの示唆でもある。安定性のために greedy sampling を使っているようだ）
- 博物館シーンでは、amethyst ボックスの奇妙な反射、mammoth の後部が右側の箱の縁でだけ反射なしに現れ、箱越しに見えるとき突然飛び出してくる。tusk の反射も突然現れるが、これは Fresnel 効果とは無関係だ
本当に印象的だが、詳細はあまりにも不足している。他のコメントのように、実際に使ってみなければ意味がないという点には同意しないが、ほんの数年前ならこういう発表には必ず論文が付いていたはずだという意味で、変化に驚かされる。今は論文の一部のように、制作陣、デモ、bibtex citation などはあるが、実際の研究共有はない。知人と話していて、AIが今すぐ何をできるか以上に、研究・学術モードから瞬時に「価値抽出」へと経済合理性が先行するようになったことのほうがむしろ心配になった。政策や経済の判断がこれを間接的にでも前提にし始めるのは危うさも大きい。商業化に反対しているわけではないが、研究論文のように見せた製品発表と、最近の学術研究支援縮小に対する数学者たちの警告が同時に出てくるのは、長期的には信頼感を弱める現象だと思う
予測ベースで「次のピクセル」を出力することが、従来方式のように決定論的にシーンを構築してレンダリングするより優れていると想像するのは、いまだに難しい。たとえばAIを使ってテクスチャ、モデル、モーションシーケンスを作り、グラフィックカードがそれを組み合わせてシーンをレンダリングするようにすれば、ユーザーは wire モデル、テクスチャ、カメラ位置などを自由に操作できる
- 一定以上のビジュアル品質が必要なら、むしろ「次のピクセル」予測のほうが従来レンダリングより安くなる瞬間が来る。モデルは表面に無限にズームインして、その中に何があるかまで描写（予測）できる。従来のレンダリング方式では到達しにくい技術的課題が減る
革命的に感じる。来るとは思っていたが、実際に目の前にすると新鮮だ。限界はあるが出発点だ。これまでゲームエンジンでは、エンジニアや開発者が図形（三角形など）をピクセルに正確に合わせて配置調整することが核心だったが、今はフレームごとにコンピュータが直接「絵」を描いているような感覚で、三角形計算なしに画像を出している
テキストレンダリング。明確で読めるテキストは、入力されたワールド説明に含まれている場合にのみ主に生成可能以前、画像AIがテキストをうまく出せなかった頃を思い出す。その問題もすぐに解決されたのだから、これも時間の問題だろう
- それに手の描画品質も10倍以上ひどかった時期があった。今では手もテキストも画像全体も良くなったので、欠陥探しの「ウォーリーをさがせ」遊びをまたすることになりそうだ。いつかAIウォーターマークが画素の1/3レベルに隠された無限ズーム動画まで出てくると期待している。個人的には augmented video 分野のほうがもっと面白い。stormtrooper vlog スタイルの映像のように Runway などが試しているが、価格が高すぎる
- テキスト問題は完全に解決されたと見るにはまだ早く、確かにかなり良くなったが、gpt-image-1 でもテキスト生成に時々失敗する
- プロンプトと生成された黒板の内容が、ダッシュ（-）の有無で食い違っている
現実感が何度も揺さぶられるプレゼンテーションは初めてだった。本当に頭を殴られたような体験だった
生成AIの進歩が進むほど、ますます憂鬱になる。創造性がどんどん速いペースで奪われていく感じがする。技術がこの状態で道具としてとどまり、人間の創作を助ける線であればよいのだが、今はむしろ完全な代替を志向しているように見える。もちろん「自分で音楽や絵を作ることもできる」とは言えるが、歴史的に芸術作品は純粋に自分だけのために作られるというより、他者と共有しようとする社会的文脈の中で生まれてきた。では結局、私たちに何が残るのか。まだ自動化されていない単純労働だけで、それすら自動化されたら人間には何が残るのかわからない。結局、脳にパーソナライズされた刺激を与えてドーパミンだけを上げ続け、脳が壊れていく未来（すでにTikTok系で一部実現している）が来るのだろうか。あらゆる仕事が自動化されたら、経済構造がそれでどう維持されるのか疑問だ。もしかするとFermi paradoxのひとつの解釈になるのかもしれない。技術は理解できず触れられず、単純な技術アクセスすら消え、資源は不可逆的に枯渇した世界だ。そんな状況でどうやって生きる意味を見つければいいのか考えてしまう
- 芸術作品が大衆と共有されず、純粋に自分のためにだけ作られてこなかったという主張には、多くの有名な作家、画家、芸術家たちが反例になる。カフカもその代表例だし、重要な作品が本人の死後、本人の意思に反して遅れて発見された例も多い。これで他の論点が消えるわけではないが、芸術は自分自身のために存在してきたことが常にあり、これからもそうだろう
- 「この時代に生きていることを喜ぶ人たちの主張を受け入れられない」という話について、喜びは感情であって論理的行為ではない。希望や想像力から来る感覚だ。楽観に論理は必要ない。そして生きる意味を見つける問題は、LLMが登場して初めて問われたものではなく、何千年も前から扱われてきたテーマだ。たとえば [バガヴァッド・ギーター] でも、主人公が「結果も無意味なのになぜ行動すべきなのか」と神に問うが、明確な答えはなく、瞑想的な思索が残るだけだ。この問いは人工知能以前から人間が長く向き合ってきたものだ
- 今日では、私たちは生き延びるために歩いたり重い物を持ち上げたりする必要がなくなったことで、運動しなければだんだん弱くなっていくのと似ている。未来では、大半の人が食べていくために思考、創作、探究そのものをする必要がなくなれば、どんどん愚かになっていくだろう。少数の人だけが頭脳を鍛えるとしても、結局は機械より賢くなることはできない。まるで最高のアスリートが機械に勝てないのと同じように
- すでに私たちが生きている世界でも、自分よりはるかに演奏のうまい人が作った曲が YouTube や Spotify に山ほどある。だから今回の変化もその延長線上にあると思う
- あなたの主張には共感できない。私は生涯で数百曲を作ってきたが、誰とも共有したことはないし、ミュージシャンの友人たちも皆同じだ。創作という行為は、観客がいるかどうかとは別の領域にある。実際にはむしろ正反対に近い。そして音楽制作の歴史も、新しい技術によって徐々に参入障壁を下げてきたし、昔は高価な機材のせいで参入できなかったのだから

Google DeepMind、Genie 3ワールドモデルを公開

Genie 3: ワールドシミュレーションの革新

ワールドモデル発展の背景

Genie 3の主な機能

自然および物理現象のモデリング

複雑な生態系とアニメーション

歴史的・地理的背景の実装

リアルタイムの相互作用とコントロール

Promptable World Events

エージェント研究と実験

技術的課題と成果

限界と課題

責任と公開範囲

今後と活用展望

関連記事

1件のコメント

Hacker Newsの意見