Diffusion Models Are Real-Time Game Engines
- GameNGen: ニューラルモデルで駆動される初のゲームエンジンであり、複雑な環境とのリアルタイムな相互作用を高品質で提供する
- DOOMシミュレーション: 単一のTPUで毎秒20フレーム以上で古典的ゲーム DOOM をインタラクティブにシミュレーションできる
- PSNR: 次フレーム予測で 29.4 PSNR を達成しており、これは非可逆JPEG圧縮に近い
- 人間の評価者: 人間の評価者は、ゲームクリップとシミュレーションクリップを見分ける際、ランダム推測をわずかに上回る程度だった
フルゲームプレイ動画
エージェントプレイによるデータ収集
- 自動RLエージェント: 大規模な人間のゲームプレイデータを収集できないため、第一段階として自動RLエージェントを訓練してゲームをプレイさせ、この訓練エピソードの行動と観測を記録し、生成モデルの訓練データとして使用する
生成的拡散モデルの訓練
- Stable Diffusion v1.4: 過去の行動と観測(フレーム)シーケンスを条件とする小型の拡散モデルを再利用する
- ガウスノイズの追加: 訓練中、エンコードされたフレームにガウスノイズを加えてコンテキストフレームを劣化させることで、ネットワークが前のフレームからサンプリングされた情報を修正できるようにする。これは長時間にわたって視覚的安定性を保つうえで重要である
潜在デコーダのファインチューニング
- Stable Diffusion v1.4 の事前学習済みオートエンコーダ: 8x8ピクセルパッチを4つの潜在チャネルに圧縮するが、これがゲームフレーム予測時に目立つアーティファクトを生み出す。特に小さなディテールや下部バーのHUDに影響する
- デコーダの訓練: 画像品質を向上させるため、ターゲットフレームのピクセルに対してMSE損失を計算し、潜在オートエンコーダのデコーダのみを訓練する
GN⁺ の要約
- GameNGen は、ニューラルモデルを用いて複雑なゲーム環境とリアルタイムで相互作用できる初のゲームエンジンである
- DOOMシミュレーション により高品質なフレーム予測を実現し、人間の評価者が実際のゲームとシミュレーションを区別するのが難しいほど精巧である
- Stable Diffusion v1.4 のような既存モデルを再利用して効率を高め、ガウスノイズ追加のような手法によって視覚的安定性を維持している
- 潜在デコーダのファインチューニング により画像品質を改善し、ゲームフレームのディテールを保持する
1件のコメント
Hacker Newsの意見
GoogleのSD 1.4を使った拡散モデルには、予想以上に多くの因果関係、結果、順序が含まれている
この論文は、リアルタイムのユーザー入力を受けて出力を調整するシステムについては説明していない
このモデルが20fpsでレンダリングできるのは驚き
あらゆるものにDoomを動かそうとする試みは続いている
無意味だと指摘するコメントを読むのが面白い
Doomのシステム要件とStable Diffusion v1の比較
ゲームエンジンの役割は世界をレンダリングすること
テキスト条件は与えられていないが、テキストプロンプトだけで新しいゲームを作ることは可能かもしれない