Waymoワールドモデル：自動運転シミュレーションの新たな境地

(waymo.com)

6 ポイント投稿者 GN⁺ 2026-02-07 | 1件のコメント | WhatsAppで共有

大規模な自動運転シミュレーションのための生成型ワールドモデルで、現実に近い環境をリアルタイムに再現
Genie 3を基盤に構築されており、希少または極端な状況（竜巻、洪水、動物の出現など）を現実さながらに再現可能
運転制御、シーン構成、言語制御によってシミュレーションを細かく調整でき、カメラとLiDARデータを同時に生成
一般的な映像やドライブレコーダー映像をマルチセンサーシミュレーションへ変換し、実際の走行シーンをそのまま再現
このモデルは安全性検証とサービス拡大のための中核ツールであり、現実ではほぼ不可能な状況にまで備えられるようにする

Waymoワールドモデル概要

Waymo Driverは米国の主要都市で完全自動運転として約2億マイルを走行し、そのほかにも仮想環境で数十億マイルを走行
- 実際の道路では遭遇しにくい複雑な状況を事前に学習できるよう設計されている
Waymoワールドモデル（Waymo World Model）は、こうした仮想走行のための超高忠実度シミュレーション生成システム
- WaymoのAIエコシステムの中核3本柱の1つとして、安全性を実証する基盤の役割を担う

Genie 3ベースの構造と機能

Google DeepMindのGenie 3を基盤とし、運転環境に特化した形へ調整されている
- Genie 3は写実的でインタラクティブな3D環境を生成する汎用ワールドモデル
Genieの広範な世界知識を活用し、竜巻やゾウとの遭遇のような現実ではほぼ不可能な出来事までシミュレーション可能
言語プロンプト、運転入力、シーン配置を通じてシミュレーションを細かく制御
カメラとLiDARデータをともに生成するマルチセンサー出力に対応

マルチモーダルな世界知識

従来の自動運転シミュレーターは自前で収集したデータのみで学習するが、WaymoモデルはGenie 3の事前学習済みの広範な動画データを活用
2D映像の知識をWaymoのLiDARシステム向け3D出力へ転移
- カメラは視覚的な細部描写に、LiDARは正確な深度情報に強みがある
日常的な運転から希少なロングテール状況まで、多様なシーンを生成可能
極端な気象・自然災害シミュレーション
- 雪に覆われたゴールデンゲートブリッジの走行、竜巻との遭遇、洪水で水没した郊外地域、熱帯都市の雪に覆われた通り、火災からの脱出などのシーンを生成
希少・安全上重要な事象
- 危険運転をするドライバー、木の枝に接触する車両、積み荷が不安定な車両、逆走トラックなど、安全関連シナリオを再現
ロングテールな物体と特異な状況
- ゾウ、テキサスロングホーン、ライオン、恐竜の着ぐるみを着た歩行者、巨大な風車など、非日常的な物体との遭遇シミュレーションを提供

シミュレーション制御機能

運転動作制御、シーン構成制御、言語制御の3つの方式で調整可能
運転動作制御
- 特定の運転入力に応じて反応する対話型シミュレーターを実装
  - 例：ある状況でより積極的に走行した場合の結果を検証
- 従来の3DGS(3D Gaussian Splats)方式より視覚的一貫性と写実性を維持
シーン構成制御
- 道路構造、信号状態、周辺車両の挙動などを自由に変更可能
  - カスタムシナリオの生成や道路環境の変形をサポート
言語制御
- 時間帯、天候、シーン全体をテキスト命令で変更可能
  - 例：未明、朝、正午、夕方、夜などへの時間帯切り替え
  - 曇り、霧、雨、雪、晴天など気象条件の変更

映像ベースのシミュレーション変換

一般的なカメラやドライブレコーダー映像を入力として受け取り、Waymo Driver視点のマルチセンサーシミュレーションへ変換
- 実映像ベースであるため写実性と正確性が高い
例：ノルウェー、ユタ州のArches国立公園、カリフォルニアのDeath Valleyなど、実在する場所の映像を変換

スケーラブル推論（Scalable Inference）

長尺シーンのシミュレーションは計算量が大きいが、効率化されたモデル変種により高品質を保ちながら計算量を大幅に削減
- 狭い車線の通過、複雑な交差点、上り坂など、長時間の走行シナリオに対応
4倍速再生の例：高速道路のボトルネック回避、複雑な住宅街の走行、上り坂でのオートバイ回避、SUVのUターンなど

安全性と拡張性

現実ではほぼ不可能な状況を仮想で再現して事前に備える
Waymo Driverの安全基準を強化し、新たな地域や環境へのサービス拡大の基盤を整備

このプロジェクトにはWaymoとGoogle DeepMindの多数の研究者が参加

1件のコメント

GN⁺ 2026-02-07

Hacker Newsの意見

DeepMindが突然 world model に注力している理由が理解できた
WaymoをBoston Dynamicsのヒューマノイドのような「ロボット」と考えたことはなかったが、実質的にはロボットだ
Google/AlphabetはAI分野で 垂直統合 が驚くほど完成している — 自前の電力生産、チップ、データセンター、検索・Gmail・YouTube・Gemini・Workspace・Wallet、数十億のAndroid・Chromebookユーザー、広告ネットワーク、ブラウザ、Waymo、Boston Dynamicsとの協業、核融合研究、新薬開発にまで及ぶ
このスケールを見ると、ChatGPTやGrokのようなチャットボットは比較にならない
- GoogleはAIを製品として売るよりも、社内R&Dと自社適用 に注力してきた
  以前は自動運転車の研究はStreet View向けだと思っていたが、今見るとはるかに大きな構想があった
- Googleはすでに2018年からworld modelを研究していた
  関連論文はこちらで読める
- TeslaもFSDの訓練用に似たシステムを作ったが、地図サービスとして製品化しなかったのは惜しい
  車両からリアルタイムで道路状況を更新できたはずだが、今ではかなり出遅れた印象がある
- Teslaが ヒューマノイドロボット を始めた理由も、こうした文脈で理解できた
- この観点に今になって気づいたなら、Teslaより3年は遅れていることになる
  関連動画はこちらを参照
Genieモデルは まれな出来事（竜巻、ゾウとの遭遇など）をシミュレーションできるというが、生成結果が本当に現実的なのか疑問だ
たとえば道路に5mmの鋼球がばらまかれた状況をモデルが予測したとしても、それが妥当な数値かどうかをどう検証するのか不安がある
- 時間がたてばworld modelの品質が改善され、自動運転システムを 「十分に現実的な」合成データ で訓練できるようになるだろう
  完璧である必要はなく、反復利用と検証を通じて徐々に改善する好循環を作れる
- 「これで車は鋼球にも安全だ」と宣言するのではなく、単体テストのように 特定状況で想定どおり反応するかを確認する用途だ
  たとえば吹雪の中の白い牛のような極端なケースも、シミュレーションで拾える
- 「竜巻からゾウまで」をシミュレーションできるなら、The Simsのようなゲーム も面白そうだ
- 実際のところ、こうした不確実性は人間にも同じだ
  完璧な予測は不可能だが、知識に基づく最善の判断 に向けて段階的に改善していく過程だ
- シミュレーションで訓練し、現実で検証するアプローチが必要だ
Waymo World Modelは一般的なカメラ映像も マルチモーダルシミュレーション に変換できるというが、これはWaymoがその気になれば カメラだけでも走行可能 だという意味だ
- ただ実際には、LiDAR、動画、そのほかのセンサーでブートストラップされた表現へ変換している
  TeslaはLiDARの段階を経ていないため、こうした結果を得るのは難しい
- LiDARはカメラの精度が落ちるときの 誤差補正 のための仕組みだ
  人間の両眼視差のように奥行き認識を補う
- LiDAR ジャミング攻撃 に備えるためにも、依然として重要だ
- 映像 → センサーデータ変換と、そのデータを使った走行は別の段階だ
  前者は訓練用、後者は実車用だ
- 自動運転車は人間よりはるかに安全でなければ社会的に受け入れられない
  だからカメラだけを使うアプローチには限界がある
技術は印象的だが、鉄道インフラの改善 のほうが急務だと思う
- Bay Areaに住む立場からすると、すでに鉄道はあるが、運営費も回収できないほど運賃・管理・秩序がめちゃくちゃ だ
  無賃乗車、暴力、不衛生などによって利用者が離れていく
  こうした現実を無視したまま公共交通だけを唱えても空虚だ
  だからWaymoのようなサービスが約束した品質を実際に提供できるなら、より注目される
  個人的には シェアサイクル だけが約束を守っている唯一の代替案だと思う
- 鉄道は結局、人々の行動規範 が維持されなければ地獄になる
  騒音、物乞い、薬物問題などのせいで、公共交通が避ける対象になる
- どんな場合でも自動車は依然として 絶対的優位 を持つ
  米国のインフラの現実を考えると、大規模な鉄道改革は非現実的だ
  日本のように鉄道が発達していても、車両保有率は米国と大差ない
- どこへでも望む場所へ、個人の予定に合わせて安全かつ清潔に移動 できる車両のほうが良いと思う
- それでもWaymoは、運転手を減らし車両保有を減らす転換点 になり得る
今回の発表の核心は 2D映像から3D LiDARデータを生成 する技術だ
DeepMindとGoogleのインフラへのアクセス性は、Waymoの 圧倒的な競争力 だ
- 実のところ、2D映像から3Dを推定する技術自体は数十年前から存在していた
- Metric3D のような monodepth方式 もあるが、Waymoの結果は間違いなく最新水準（SOTA）だ
洪水、竜巻、山火事などのシミュレーションは印象的だが、停電のようなありふれた状況でWaymoが一斉に停止したのは疑問だ
こうした基本シナリオを処理できないなら、シミュレーションの意義は薄い
- シミュレーションは個々の車両性能を高めるが、停電は遠隔支援要員の過負荷によるシステム全体の問題 だった
  つまりシミュレーションには依然として価値があるが、あらゆる失敗を防げるわけではない
- 実際にWaymoが 洪水エリアへ進入した事例 もあった
  関連動画
Waymoが 仮想的な反事実的（counterfactual）状況 を訓練に使っている点は危険に見える
実際の悲劇的事例より「うまく対処した映像」のほうが多くなるだろうから、結果として 過剰な自信 を学習する可能性がある
- だが実際には「反事実的」というより、まれな状況を補う ための生成だ
  Waymoが竜巻やゾウに遭遇しても停止せず対処できるようにするのが目的だ
- 運転は 速度と安全のバランス の問題だ
  完全な安全だけを追求すれば、車はまったく動かなくなる
- 交差点で安全なときに進入しないことや、時速5マイルでしか走らないことも 誤った運転行為 だ
  単純に「遅ければ安全」という考え方は正しくない
world modelは実際の安全状況では 偏ったデータのため危険になり得る
失敗事例がほとんどないデータで学習すると、実際の事故状況を再現できないかもしれない
- ただWaymoはすでに 1億マイル以上の実走行データ で学習している
  例として示された動画は衝突回避の事例を示している
- もちろん依然として バイアスの可能性 はあるが、LLMを使った プロンプトベースのシナリオ生成 で多様性を確保できる
  ただし「十分に現実的か」という基準は曖昧だ
  人間も100%信頼できるわけではないので、10倍安全な水準 と 検証可能なコードベースの安全装置 が組み合わされれば、社会的受容性は高まるだろう
DeepMindの Project Genie がWaymoの基盤技術のように見える
関連記事: Genie 3: A new frontier for world models
Hacker Newsでの議論: Genie 3, Project Genie
- DeepMindは単なるAlphabet子会社ではなく、Demis HassabisがGoogle AI全体を率いる中核組織 だ
自動運転学習の ベルカーブ・ミーム を思い出す
最初は物理ベースのシミュレーターから始まり、実データを収集し、再び 物理情報を反映したディープラーニング・シミュレーター へ戻っていく流れだ
- 結局、単純なシミュレーション → 現実データ → まれな現実のためのシミュレーション へと循環する
  こうしたパターンには名前を付けるべきなくらい、自然な発展段階に見える

Waymoワールドモデル：自動運転シミュレーションの新たな境地

Waymoワールドモデル概要

Genie 3ベースの構造と機能

マルチモーダルな世界知識

極端な気象・自然災害シミュレーション

希少・安全上重要な事象

ロングテールな物体と特異な状況

シミュレーション制御機能

運転動作制御

シーン構成制御

言語制御

映像ベースのシミュレーション変換

スケーラブル推論（Scalable Inference）

安全性と拡張性

関連記事

1件のコメント

Hacker Newsの意見