1 ポイント 投稿者 GN⁺ 2024-08-29 | 1件のコメント | WhatsAppで共有

Diffusion Models Are Real-Time Game Engines

  • GameNGen: ニューラルモデルで駆動される初のゲームエンジンであり、複雑な環境とのリアルタイムな相互作用を高品質で提供する
  • DOOMシミュレーション: 単一のTPUで毎秒20フレーム以上で古典的ゲーム DOOM をインタラクティブにシミュレーションできる
  • PSNR: 次フレーム予測で 29.4 PSNR を達成しており、これは非可逆JPEG圧縮に近い
  • 人間の評価者: 人間の評価者は、ゲームクリップとシミュレーションクリップを見分ける際、ランダム推測をわずかに上回る程度だった

フルゲームプレイ動画

エージェントプレイによるデータ収集

  • 自動RLエージェント: 大規模な人間のゲームプレイデータを収集できないため、第一段階として自動RLエージェントを訓練してゲームをプレイさせ、この訓練エピソードの行動と観測を記録し、生成モデルの訓練データとして使用する

生成的拡散モデルの訓練

  • Stable Diffusion v1.4: 過去の行動と観測(フレーム)シーケンスを条件とする小型の拡散モデルを再利用する
  • ガウスノイズの追加: 訓練中、エンコードされたフレームにガウスノイズを加えてコンテキストフレームを劣化させることで、ネットワークが前のフレームからサンプリングされた情報を修正できるようにする。これは長時間にわたって視覚的安定性を保つうえで重要である

潜在デコーダのファインチューニング

  • Stable Diffusion v1.4 の事前学習済みオートエンコーダ: 8x8ピクセルパッチを4つの潜在チャネルに圧縮するが、これがゲームフレーム予測時に目立つアーティファクトを生み出す。特に小さなディテールや下部バーのHUDに影響する
  • デコーダの訓練: 画像品質を向上させるため、ターゲットフレームのピクセルに対してMSE損失を計算し、潜在オートエンコーダのデコーダのみを訓練する

GN⁺ の要約

  • GameNGen は、ニューラルモデルを用いて複雑なゲーム環境とリアルタイムで相互作用できる初のゲームエンジンである
  • DOOMシミュレーション により高品質なフレーム予測を実現し、人間の評価者が実際のゲームとシミュレーションを区別するのが難しいほど精巧である
  • Stable Diffusion v1.4 のような既存モデルを再利用して効率を高め、ガウスノイズ追加のような手法によって視覚的安定性を維持している
  • 潜在デコーダのファインチューニング により画像品質を改善し、ゲームフレームのディテールを保持する

1件のコメント

 
GN⁺ 2024-08-29
Hacker Newsの意見
  • GoogleのSD 1.4を使った拡散モデルには、予想以上に多くの因果関係、結果、順序が含まれている

    • 無限の学習データを得るために、エージェントにDoomをプレイさせる
    • ソースフレームにガウシアンノイズを加え、エージェントが連続フレームを「修正」するよう報酬を与える
    • モデルに誤り訂正と安定性の維持を教えることが重要
    • このモデルを「フォトリアル」あるいはレイトレーシング風にファインチューニングできるのか気になる
  • この論文は、リアルタイムのユーザー入力を受けて出力を調整するシステムについては説明していない

    • エージェントがDoomをプレイした大規模データセットで学習している
    • ユーザー入力はリアルタイムでシミュレーションに反映されない
    • 論文ではリアルタイムのユーザーによるゲームプレイの説明が省かれている
  • このモデルが20fpsでレンダリングできるのは驚き

    • 拡散モデルとRNNの交差点のように見える
    • モデルがたくさんプレイしたゲームを夢見ているのに似ている
    • 人間も次の瞬間を予測する機械なのかもしれない
  • あらゆるものにDoomを動かそうとする試みは続いている

    • このモデルは、最も高いハードウェア要件を持つDoomだ
    • ハードウェア仕様の両極端にDoomがある
  • 無意味だと指摘するコメントを読むのが面白い

    • すべてが利益のために作られる必要はない
    • 学習経験、挑戦、好奇心のために何かを作ることも重要
    • 楽しさを感じる時間は決して無駄ではない
  • Doomのシステム要件とStable Diffusion v1の比較

    • Doom: 4MB RAM、12MBのディスク容量
    • Stable Diffusion v1: 860M UNetおよびCLIP ViT-L/14、チェックポイントサイズは4.27GB、TPU-v5eで動作
    • モデルにはゲームを数百回記憶できる容量があるにもかかわらず、最適化の余地は大きい
    • ゲームを十分に自動化すれば、ゲームを複製できる
  • ゲームエンジンの役割は世界をレンダリングすること

    • 「このドアには青い鍵が必要です」というメッセージは、ユーザーに青い鍵を与えてくれるわけではない
    • ゲームエンジンは新しいゲームを作り、既存ゲームのルールをリアルタイムで変更できる
    • 拡散モデルはゲームエンジンではない
  • テキスト条件は与えられていないが、テキストプロンプトだけで新しいゲームを作ることは可能かもしれない

    • RLを使ってDoomの見た目と動作を学習している
    • 無限の状態を持つオープンワールドゲームをシミュレートするのは難しいだろう