6 ポイント 投稿者 GN⁺ 2026-01-30 | 1件のコメント | WhatsAppで共有
  • GoogleのProject Genieは、ユーザーがテキストと画像を使ってインタラクティブな仮想世界を生成・探索・リミックスできる実験的な研究プロトタイプ
  • Genie 3モデルを基盤としており、ユーザーの移動に応じてリアルタイムで経路と環境を生成
  • Webアプリとして提供され、Nano Banana ProGeminiモデルが統合されており、世界のスケッチ、探索、リミックス機能を支援
  • モデルの限界により、物理法則との不整合、キャラクター制御の遅延、60秒制限など、初期バージョンには制約がある
  • 現在は**米国内のGoogle AI Ultra加入者(18歳以上)**に提供されており、今後さらに多くの地域へ拡大予定

Project Genie の概要

  • Project GenieはGoogle DeepMindが開発したGenie 3ベースの実験的な研究プロトタイプで、ユーザーが自ら仮想世界を作成し、探索し、リミックスできる環境を提供
    • 米国内の**Google AI Ultra加入者(18歳以上)**が利用可能
    • ユーザーはテキストプロンプトと画像を通じて世界を生成し、リアルタイムで探索できる
  • このプロジェクトは、没入型の世界生成技術を一般ユーザーに公開する最初の段階であり、**世界モデル(world model)**研究の拡張版にあたる

世界モデル(World Model)の発展

  • 世界モデルは、環境の動的な変化をシミュレーションし、行動が及ぼす影響を予測するシステム
  • Google DeepMindは、チェスや囲碁のような特定環境向けエージェント研究を超えて、現実世界の多様性を探索できるAGIシステムの開発を目指している
  • Genie 3はユーザーの移動に応じてリアルタイムで経路を生成し、物理的な相互作用をシミュレートする
    • 静的な3Dスナップショットではなく、動的な世界生成をサポート
    • ロボティクス、アニメーション、フィクション、歴史的な場所の探索など、さまざまなシナリオに活用可能

Project Genie の動作方式

  • Webベースのプロトタイプで、Genie 3に加えてNano Banana ProGeminiモデルが統合されている
  • 3つの中核機能で構成
  • 1. World Sketching(世界スケッチ)

    • テキストと画像(生成またはアップロード)を使って生きた環境を設計
    • キャラクターと探索方法を定義でき、歩行・飛行・運転など多様な移動形態をサポート
    • Nano Banana Pro統合により、世界のプレビューと細部調整が可能
    • 一人称または三人称視点を選択可能
  • 2. World Exploration(世界探索)

    • 生成された世界は探索可能な環境となり、ユーザーの行動に応じてリアルタイムで経路が生成される
    • 探索中にカメラ視点の調整が可能
  • 3. World Remixing(世界リミックス)

    • 既存の世界のプロンプトを基に新たな解釈の世界を再構成できる
    • ギャラリーやランダム探索機能を通じて他のユーザーの世界を探索または修正できる
    • 完成した世界と探索過程を動画としてダウンロード可能

責任あるAIの構築

  • Project GenieはGoogle Labs内で進められている実験的な研究プロトタイプであり、責任あるAI開発原則に従って運営されている
  • 現在のモデルの限界として、次のような制約が明示されている
    • 生成された世界が現実と異なる、またはプロンプト・物理法則と不整合である可能性がある
    • キャラクター制御の遅延や応答性の低下が発生する可能性がある
    • 生成時間60秒制限が存在する
  • 2025年8月に発表されたプロンプトベースのイベント変化機能は、まだ含まれていない
  • 今後のアップデートや改善事項はDeepMind公式ページで確認可能

今後の計画とアクセシビリティ拡大

  • Project Genieは信頼できるテスターとの協業研究を基に開発されている
  • 今回の公開は、ユーザーが世界モデルを実際にどのように活用するかを理解するための段階
  • 現在は米国内のGoogle AI Ultra加入者のみに提供されており、今後さらに多くの地域へ拡大予定
  • Googleは長期的に世界生成技術をより多くのユーザーへ開放する計画

1件のコメント

 
GN⁺ 2026-01-30
Hacker Newsのコメント
  • 最近ずっと Andy Clark の The Experience Machine を思い出している
    人間の脳は世界を直接知覚するのではなく、内部で生成した シミュレーション を感覚で補正しながら現実を経験する、という理論だ
    つまり、私たちは高解像度の生成モデルの中で生きていて、感覚はそのモデルの 誤差信号 を調整する役割を果たす
    Genie 3 が潜在空間で次のフレームを予測するように、人間の脳も「Active Inference」によって期待と実際の経験の差を最小化しようとする
    結局のところ、現実感とは外部世界の直接的な記録ではなく、絶えず補正される 相互作用的シミュレーション だという見方になる

    • 神経学的にはすでにかなり確立された概念だ
      たとえば は、感覚入力が遮断された状態で内部モデルが自由に動作する例と見なせる
    • 関連動画として、kurzgesagt の Why Your Brain Blinds You For 2 Hours Every Day と、その 出典一覧 を勧めたい
    • Anil Seth の Your Brain Hallucinates Your Conscious Reality も同じ文脈にある
      こうしたテーマは昔から 哲学と宗教 でも扱われており、人間の意識が自らの投射によって現実を構成するという点が興味深い
    • スマートフォン写真の 後処理 も似た比喩として見られる
      ある時点から、それは写真ではなく 計算された印象派作品 になっているのではないか、という疑問が湧く
    • Donald Hoffman の『The Case Against Reality』もあわせて読む価値がある
  • 多くの人が Genie を単なる ゲームや映画向けの製品 だと誤解しているようだ
    しかし本当の目的は、次世代 AI とロボットの 「想像力エンジン」、つまり行動結果をシミュレーションして意思決定を助ける 世界モデル を作ることだ

    • 私も同意する。LLM には世界モデルがないと言われてきたが、いまはその次の段階に進もうとしているわけだ
      現実の映像を一定のフレームレートでエンコードしてモデルの想像力を 現実データに固定 し、可能な行動シナリオを分岐させて評価したうえで、最適な予測をモーターへ送る構造を想像している
      タイミング調整は簡単ではないだろうが、大枠はすでに見えている
    • 少し違う意見だ。本当の想像力を求めるなら、わざわざ 動画デコード は必要ないと思う
      Genie は人間が理解して デバッグできるインターフェース として動画を生成しているのだ
      つまり、研究者向けの AI 実験ゲーム という点で目的が異なる
    • しかしこうした構造は コストが高すぎる。ロボティクスにはまったく別のアーキテクチャが必要だと思う
    • Instagram も最初は友人と写真を共有するアプリだったが、今では 中毒性のあるプラットフォーム になっている
      Genie が VR と結びつけば、似たような ディストピア的な転換点 が訪れるかもしれない
    • こうした環境マッピングと AI による代替結果の生成は、結局 ホロデッキ の概念だ
      だが私は依然として現実の 危険と生々しさ を好む
  • Genie の公開は本当にうれしい
    初期ユーザーによる興味深い動画がある:
    都市探検, ヘリコプターシミュレーション, 宇宙ステーションとダンキンドーナツ, ノートPCシミュレーション, カワウソのパイロット

    • 私も アーリーテスター として参加した
      月面を歩いたり、221B Baker Street で Holmes と Watson に会ったり、台北の夜市にある 巨大なバブルティー の中を探検したりと、さまざまな世界を作ってみた
      デモ動画 もある
      まだ実験的なプロトタイプだが、未来の手がかり のように感じられる
    • 技術的には驚異的だが、没入感 は足りない
      Unreal 5 のアセットを数語で生成できるのはすごいが、実際にそうやって遊びたいとは思わない
      しかも秒ごとの計算コストを払う気にもならない
    • 恐竜時代を再現したバージョンが出たらぜひ見てみたい
    • Project Genie についてみんなの意見を聞きたい
  • Genie の本当のブレークスルーは 後ろを振り向けること
    他の研究所のシミュレーターは視野外の一貫性を保てなかったが、Genie はそれを解決している

    • Fei-Fei Li の研究室は 本物の 3D 世界 を生成していると聞いた
      ただ、その方式はアニメーション表現には制約がありそうだ
    • ML 研究者たちがここまで遅れてようやく 明示的なキャッシュ構造 の必要性に気づいたのは驚きだ
    • それなら、1週間後に同じ場所へ戻ったとき、その光景が維持されるのか気になる
  • Project Genie チームのインタビュー動画がある
    YouTube リンク
    Genie はリアルタイムで 無限に多様なフォトリアル世界 を生成・探索・相互作用できる研究プロトタイプだ
    受動的な動画生成から インタラクティブメディア への転換、世界の一貫性と記憶保持 という技術的課題、そして AI エージェントの訓練場としての役割が語られている

  • こういう技術を見るほど、むしろ 現実世界で時間を過ごしたくなる
    画面を消して、自分が愛していることをまたやりたくなる

    • 私も同じ感覚だ。動画の中でキーボードを叩く人を見た瞬間、なんとも言えない ほろ苦さ が押し寄せてきた
      実写映像から作られた仮想世界が、かえって 悲しさ を与える
    • AI は好きだが、むしろこうした技術が 本物の人間体験の価値 を思い出させてくれることを願う
    • 生涯ずっとテック業界で働いてきたが、もうすべてを 切ってしまいたい
    • 皮肉なことに、こうした進歩によって シミュレーション仮説 をいっそう信じたくなる
      もしかすると現実もすでにシミュレーションなのかもしれない
    • 空は青く日差しも気持ちいいのに、面倒だからただ 散歩シミュレーション を回そうか、という気になってしまう
  • 昔 HN に投稿された 公園動画で世界モデルを学習した個人プロジェクト を思い出した
    インタラクティブデモ もあったが、Genie はそのアイデアを一段引き上げた感じだ
    ブログやインディーデモが引用されない現実は残念だ

    • その通り、概念は似ているが 規模の極端さ が違う
      公園モデルは 500 万パラメータ、15 分の映像で学習され、iPhone でも動作 する
      一方で Genie 3 は数十億パラメータで数百万時間の映像を学習した 超巨大モデル
      中規模のモデルも登場しつつあり、1〜2年以内には ゲーミング GPU でローカル実行 が可能になりそうだ
      例: LingBot-World, Waypoint 1
  • これはすべて映画 『The Thirteenth Floor』 のテーマに似ている
    予告編リンク

  • 誰かこの GIF から世界をひとつ作ってくれたらいいのに

  • 以前から気になっていた。なぜ Meta(FB) は世界モデルに積極的ではないのか
    これこそ メタバース構想の中核 なのに、むしろ Yann LeCun を手放してしまった

    • LeCun は 成果の欠如と頑固な研究方針 によって内部の亀裂を招いた
      LLM 競争に参加せず、検証されていない理論にばかり没頭していた
      その結果、Meta は AI の先頭集団から後れを取り、LeCun は名誉を保ったまま去ったというわけだ
    • JEPA と Genie の違いはこうたとえられる
      JEPA は 小説家 のように「犬が郵便配達員に駆け寄る」と要約する
      Genie は 画家 のように次の場面を直接描かなければ物語が成立しない
      つまり、Genie は フレーム単位の生成、JEPA は 概念単位の予測
    • 完全に同意する。世界モデルこそ Reality Labs への投資を救う切り札
      これを製品化できなければ、プロジェクト自体を畳むべきだ
    • 失敗事例は公開されない。実際に Meta がどこへ投資してきたのか 不明瞭
    • 根本的に、人々は VR ヘッドセットを装着するのが好きではない
      どれほどコンテンツが良くても、依然として ニッチ市場 にとどまっている