- 大規模な自動運転シミュレーションのための生成型ワールドモデルで、現実に近い環境をリアルタイムに再現
- Genie 3を基盤に構築されており、希少または極端な状況(竜巻、洪水、動物の出現など)を現実さながらに再現可能
- 運転制御、シーン構成、言語制御によってシミュレーションを細かく調整でき、カメラとLiDARデータを同時に生成
- 一般的な映像やドライブレコーダー映像をマルチセンサーシミュレーションへ変換し、実際の走行シーンをそのまま再現
- このモデルは安全性検証とサービス拡大のための中核ツールであり、現実ではほぼ不可能な状況にまで備えられるようにする
Waymoワールドモデル概要
- Waymo Driverは米国の主要都市で完全自動運転として約2億マイルを走行し、そのほかにも仮想環境で数十億マイルを走行
- 実際の道路では遭遇しにくい複雑な状況を事前に学習できるよう設計されている
- Waymoワールドモデル(Waymo World Model)は、こうした仮想走行のための超高忠実度シミュレーション生成システム
- WaymoのAIエコシステムの中核3本柱の1つとして、安全性を実証する基盤の役割を担う
Genie 3ベースの構造と機能
- Google DeepMindのGenie 3を基盤とし、運転環境に特化した形へ調整されている
- Genie 3は写実的でインタラクティブな3D環境を生成する汎用ワールドモデル
- Genieの広範な世界知識を活用し、竜巻やゾウとの遭遇のような現実ではほぼ不可能な出来事までシミュレーション可能
- 言語プロンプト、運転入力、シーン配置を通じてシミュレーションを細かく制御
- カメラとLiDARデータをともに生成するマルチセンサー出力に対応
マルチモーダルな世界知識
- 従来の自動運転シミュレーターは自前で収集したデータのみで学習するが、WaymoモデルはGenie 3の事前学習済みの広範な動画データを活用
- 2D映像の知識をWaymoのLiDARシステム向け3D出力へ転移
- カメラは視覚的な細部描写に、LiDARは正確な深度情報に強みがある
- 日常的な運転から希少なロングテール状況まで、多様なシーンを生成可能
-
極端な気象・自然災害シミュレーション
- 雪に覆われたゴールデンゲートブリッジの走行、竜巻との遭遇、洪水で水没した郊外地域、熱帯都市の雪に覆われた通り、火災からの脱出などのシーンを生成
-
希少・安全上重要な事象
- 危険運転をするドライバー、木の枝に接触する車両、積み荷が不安定な車両、逆走トラックなど、安全関連シナリオを再現
-
ロングテールな物体と特異な状況
- ゾウ、テキサスロングホーン、ライオン、恐竜の着ぐるみを着た歩行者、巨大な風車など、非日常的な物体との遭遇シミュレーションを提供
シミュレーション制御機能
- 運転動作制御、シーン構成制御、言語制御の3つの方式で調整可能
-
運転動作制御
- 特定の運転入力に応じて反応する対話型シミュレーターを実装
- 例:ある状況でより積極的に走行した場合の結果を検証
- 従来の3DGS(3D Gaussian Splats)方式より視覚的一貫性と写実性を維持
-
シーン構成制御
- 道路構造、信号状態、周辺車両の挙動などを自由に変更可能
-
言語制御
- 時間帯、天候、シーン全体をテキスト命令で変更可能
- 例:未明、朝、正午、夕方、夜などへの時間帯切り替え
- 曇り、霧、雨、雪、晴天など気象条件の変更
映像ベースのシミュレーション変換
- 一般的なカメラやドライブレコーダー映像を入力として受け取り、Waymo Driver視点のマルチセンサーシミュレーションへ変換
- 例:ノルウェー、ユタ州のArches国立公園、カリフォルニアのDeath Valleyなど、実在する場所の映像を変換
スケーラブル推論(Scalable Inference)
- 長尺シーンのシミュレーションは計算量が大きいが、効率化されたモデル変種により高品質を保ちながら計算量を大幅に削減
- 狭い車線の通過、複雑な交差点、上り坂など、長時間の走行シナリオに対応
- 4倍速再生の例:高速道路のボトルネック回避、複雑な住宅街の走行、上り坂でのオートバイ回避、SUVのUターンなど
安全性と拡張性
- 現実ではほぼ不可能な状況を仮想で再現して事前に備える
- Waymo Driverの安全基準を強化し、新たな地域や環境へのサービス拡大の基盤を整備
- このプロジェクトにはWaymoとGoogle DeepMindの多数の研究者が参加
1件のコメント
Hacker Newsの意見
DeepMindが突然 world model に注力している理由が理解できた
WaymoをBoston Dynamicsのヒューマノイドのような「ロボット」と考えたことはなかったが、実質的にはロボットだ
Google/AlphabetはAI分野で 垂直統合 が驚くほど完成している — 自前の電力生産、チップ、データセンター、検索・Gmail・YouTube・Gemini・Workspace・Wallet、数十億のAndroid・Chromebookユーザー、広告ネットワーク、ブラウザ、Waymo、Boston Dynamicsとの協業、核融合研究、新薬開発にまで及ぶ
このスケールを見ると、ChatGPTやGrokのようなチャットボットは比較にならない
以前は自動運転車の研究はStreet View向けだと思っていたが、今見るとはるかに大きな構想があった
関連論文は こちら で読める
車両からリアルタイムで道路状況を更新できたはずだが、今ではかなり出遅れた印象がある
関連動画は こちら を参照
Genieモデルは まれな出来事(竜巻、ゾウとの遭遇など)をシミュレーションできるというが、生成結果が本当に現実的なのか疑問だ
たとえば道路に5mmの鋼球がばらまかれた状況をモデルが予測したとしても、それが妥当な数値かどうかをどう検証するのか不安がある
完璧である必要はなく、反復利用と検証を通じて徐々に改善する好循環を作れる
たとえば吹雪の中の白い牛のような極端なケースも、シミュレーションで拾える
完璧な予測は不可能だが、知識に基づく最善の判断 に向けて段階的に改善していく過程だ
Waymo World Modelは一般的なカメラ映像も マルチモーダルシミュレーション に変換できるというが、これはWaymoがその気になれば カメラだけでも走行可能 だという意味だ
TeslaはLiDARの段階を経ていないため、こうした結果を得るのは難しい
人間の両眼視差のように奥行き認識を補う
前者は訓練用、後者は実車用だ
だからカメラだけを使うアプローチには限界がある
技術は印象的だが、鉄道インフラの改善 のほうが急務だと思う
無賃乗車、暴力、不衛生などによって利用者が離れていく
こうした現実を無視したまま公共交通だけを唱えても空虚だ
だからWaymoのようなサービスが約束した品質を実際に提供できるなら、より注目される
個人的には シェアサイクル だけが約束を守っている唯一の代替案だと思う
騒音、物乞い、薬物問題などのせいで、公共交通が避ける対象になる
米国のインフラの現実を考えると、大規模な鉄道改革は非現実的だ
日本のように鉄道が発達していても、車両保有率は米国と大差ない
今回の発表の核心は 2D映像から3D LiDARデータを生成 する技術だ
DeepMindとGoogleのインフラへのアクセス性は、Waymoの 圧倒的な競争力 だ
洪水、竜巻、山火事などのシミュレーションは印象的だが、停電 のようなありふれた状況でWaymoが一斉に停止したのは疑問だ
こうした基本シナリオを処理できないなら、シミュレーションの意義は薄い
つまりシミュレーションには依然として価値があるが、あらゆる失敗を防げるわけではない
関連動画
Waymoが 仮想的な反事実的(counterfactual)状況 を訓練に使っている点は危険に見える
実際の悲劇的事例より「うまく対処した映像」のほうが多くなるだろうから、結果として 過剰な自信 を学習する可能性がある
Waymoが竜巻やゾウに遭遇しても停止せず対処できるようにするのが目的だ
完全な安全だけを追求すれば、車はまったく動かなくなる
単純に「遅ければ安全」という考え方は正しくない
world modelは実際の安全状況では 偏ったデータのため危険になり得る
失敗事例がほとんどないデータで学習すると、実際の事故状況を再現できないかもしれない
例として示された 動画 は衝突回避の事例を示している
ただし「十分に現実的か」という基準は曖昧だ
人間も100%信頼できるわけではないので、10倍安全な水準 と 検証可能なコードベースの安全装置 が組み合わされれば、社会的受容性は高まるだろう
DeepMindの Project Genie がWaymoの基盤技術のように見える
関連記事: Genie 3: A new frontier for world models
Hacker Newsでの議論: Genie 3, Project Genie
自動運転学習の ベルカーブ・ミーム を思い出す
最初は物理ベースのシミュレーターから始まり、実データを収集し、再び 物理情報を反映したディープラーニング・シミュレーター へ戻っていく流れだ
こうしたパターンには名前を付けるべきなくらい、自然な発展段階に見える