- GoogleのProject Genieは、ユーザーがテキストと画像を使ってインタラクティブな仮想世界を生成・探索・リミックスできる実験的な研究プロトタイプ
- Genie 3モデルを基盤としており、ユーザーの移動に応じてリアルタイムで経路と環境を生成
- Webアプリとして提供され、Nano Banana ProとGeminiモデルが統合されており、世界のスケッチ、探索、リミックス機能を支援
- モデルの限界により、物理法則との不整合、キャラクター制御の遅延、60秒制限など、初期バージョンには制約がある
- 現在は**米国内のGoogle AI Ultra加入者(18歳以上)**に提供されており、今後さらに多くの地域へ拡大予定
Project Genie の概要
- Project GenieはGoogle DeepMindが開発したGenie 3ベースの実験的な研究プロトタイプで、ユーザーが自ら仮想世界を作成し、探索し、リミックスできる環境を提供
- 米国内の**Google AI Ultra加入者(18歳以上)**が利用可能
- ユーザーはテキストプロンプトと画像を通じて世界を生成し、リアルタイムで探索できる
- このプロジェクトは、没入型の世界生成技術を一般ユーザーに公開する最初の段階であり、**世界モデル(world model)**研究の拡張版にあたる
世界モデル(World Model)の発展
- 世界モデルは、環境の動的な変化をシミュレーションし、行動が及ぼす影響を予測するシステム
- Google DeepMindは、チェスや囲碁のような特定環境向けエージェント研究を超えて、現実世界の多様性を探索できるAGIシステムの開発を目指している
- Genie 3はユーザーの移動に応じてリアルタイムで経路を生成し、物理的な相互作用をシミュレートする
- 静的な3Dスナップショットではなく、動的な世界生成をサポート
- ロボティクス、アニメーション、フィクション、歴史的な場所の探索など、さまざまなシナリオに活用可能
Project Genie の動作方式
- Webベースのプロトタイプで、Genie 3に加えてNano Banana ProとGeminiモデルが統合されている
- 3つの中核機能で構成
-
1. World Sketching(世界スケッチ)
- テキストと画像(生成またはアップロード)を使って生きた環境を設計
- キャラクターと探索方法を定義でき、歩行・飛行・運転など多様な移動形態をサポート
- Nano Banana Pro統合により、世界のプレビューと細部調整が可能
- 一人称または三人称視点を選択可能
-
2. World Exploration(世界探索)
- 生成された世界は探索可能な環境となり、ユーザーの行動に応じてリアルタイムで経路が生成される
- 探索中にカメラ視点の調整が可能
-
3. World Remixing(世界リミックス)
- 既存の世界のプロンプトを基に新たな解釈の世界を再構成できる
- ギャラリーやランダム探索機能を通じて他のユーザーの世界を探索または修正できる
- 完成した世界と探索過程を動画としてダウンロード可能
責任あるAIの構築
- Project GenieはGoogle Labs内で進められている実験的な研究プロトタイプであり、責任あるAI開発原則に従って運営されている
- 現在のモデルの限界として、次のような制約が明示されている
- 生成された世界が現実と異なる、またはプロンプト・物理法則と不整合である可能性がある
- キャラクター制御の遅延や応答性の低下が発生する可能性がある
- 生成時間60秒制限が存在する
- 2025年8月に発表されたプロンプトベースのイベント変化機能は、まだ含まれていない
- 今後のアップデートや改善事項はDeepMind公式ページで確認可能
今後の計画とアクセシビリティ拡大
- Project Genieは信頼できるテスターとの協業研究を基に開発されている
- 今回の公開は、ユーザーが世界モデルを実際にどのように活用するかを理解するための段階
- 現在は米国内のGoogle AI Ultra加入者のみに提供されており、今後さらに多くの地域へ拡大予定
- Googleは長期的に世界生成技術をより多くのユーザーへ開放する計画
1件のコメント
Hacker Newsのコメント
最近ずっと Andy Clark の The Experience Machine を思い出している
人間の脳は世界を直接知覚するのではなく、内部で生成した シミュレーション を感覚で補正しながら現実を経験する、という理論だ
つまり、私たちは高解像度の生成モデルの中で生きていて、感覚はそのモデルの 誤差信号 を調整する役割を果たす
Genie 3 が潜在空間で次のフレームを予測するように、人間の脳も「Active Inference」によって期待と実際の経験の差を最小化しようとする
結局のところ、現実感とは外部世界の直接的な記録ではなく、絶えず補正される 相互作用的シミュレーション だという見方になる
たとえば 夢 は、感覚入力が遮断された状態で内部モデルが自由に動作する例と見なせる
こうしたテーマは昔から 哲学と宗教 でも扱われており、人間の意識が自らの投射によって現実を構成するという点が興味深い
ある時点から、それは写真ではなく 計算された印象派作品 になっているのではないか、という疑問が湧く
多くの人が Genie を単なる ゲームや映画向けの製品 だと誤解しているようだ
しかし本当の目的は、次世代 AI とロボットの 「想像力エンジン」、つまり行動結果をシミュレーションして意思決定を助ける 世界モデル を作ることだ
現実の映像を一定のフレームレートでエンコードしてモデルの想像力を 現実データに固定 し、可能な行動シナリオを分岐させて評価したうえで、最適な予測をモーターへ送る構造を想像している
タイミング調整は簡単ではないだろうが、大枠はすでに見えている
Genie は人間が理解して デバッグできるインターフェース として動画を生成しているのだ
つまり、研究者向けの AI 実験ゲーム という点で目的が異なる
Genie が VR と結びつけば、似たような ディストピア的な転換点 が訪れるかもしれない
だが私は依然として現実の 危険と生々しさ を好む
Genie の公開は本当にうれしい
初期ユーザーによる興味深い動画がある:
都市探検, ヘリコプターシミュレーション, 宇宙ステーションとダンキンドーナツ, ノートPCシミュレーション, カワウソのパイロット
月面を歩いたり、221B Baker Street で Holmes と Watson に会ったり、台北の夜市にある 巨大なバブルティー の中を探検したりと、さまざまな世界を作ってみた
デモ動画 もある
まだ実験的なプロトタイプだが、未来の手がかり のように感じられる
Unreal 5 のアセットを数語で生成できるのはすごいが、実際にそうやって遊びたいとは思わない
しかも秒ごとの計算コストを払う気にもならない
Genie の本当のブレークスルーは 後ろを振り向けること だ
他の研究所のシミュレーターは視野外の一貫性を保てなかったが、Genie はそれを解決している
ただ、その方式はアニメーション表現には制約がありそうだ
Project Genie チームのインタビュー動画がある
YouTube リンク
Genie はリアルタイムで 無限に多様なフォトリアル世界 を生成・探索・相互作用できる研究プロトタイプだ
受動的な動画生成から インタラクティブメディア への転換、世界の一貫性と記憶保持 という技術的課題、そして AI エージェントの訓練場としての役割が語られている
こういう技術を見るほど、むしろ 現実世界で時間を過ごしたくなる
画面を消して、自分が愛していることをまたやりたくなる
実写映像から作られた仮想世界が、かえって 悲しさ を与える
もしかすると現実もすでにシミュレーションなのかもしれない
昔 HN に投稿された 公園動画で世界モデルを学習した個人プロジェクト を思い出した
インタラクティブデモ もあったが、Genie はそのアイデアを一段引き上げた感じだ
ブログやインディーデモが引用されない現実は残念だ
公園モデルは 500 万パラメータ、15 分の映像で学習され、iPhone でも動作 する
一方で Genie 3 は数十億パラメータで数百万時間の映像を学習した 超巨大モデル だ
中規模のモデルも登場しつつあり、1〜2年以内には ゲーミング GPU でローカル実行 が可能になりそうだ
例: LingBot-World, Waypoint 1
これはすべて映画 『The Thirteenth Floor』 のテーマに似ている
予告編リンク
誰かこの GIF から世界をひとつ作ってくれたらいいのに
以前から気になっていた。なぜ Meta(FB) は世界モデルに積極的ではないのか
これこそ メタバース構想の中核 なのに、むしろ Yann LeCun を手放してしまった
LLM 競争に参加せず、検証されていない理論にばかり没頭していた
その結果、Meta は AI の先頭集団から後れを取り、LeCun は名誉を保ったまま去ったというわけだ
JEPA は 小説家 のように「犬が郵便配達員に駆け寄る」と要約する
Genie は 画家 のように次の場面を直接描かなければ物語が成立しない
つまり、Genie は フレーム単位の生成、JEPA は 概念単位の予測 だ
これを製品化できなければ、プロジェクト自体を畳むべきだ
どれほどコンテンツが良くても、依然として ニッチ市場 にとどまっている