拡散モデルはリアルタイムゲームエンジンである

(gamengen.github.io)

1 ポイント投稿者 GN⁺ 2024-08-29 | 1件のコメント | WhatsAppで共有

GameNGenは、ニューラルネットワークモデルだけで古典的ゲーム DOOM の画面遷移を生成し、別途従来型のエンジンなしにリアルタイムなインタラクションを可能にする
単一の TPU 上で 20fps 以上で動作し、長いプレイ軌跡でも画面品質と応答性を維持することを目指す
次フレーム予測は PSNR 29.4を記録し、人間の評価者は短いクリップで実際のゲームとシミュレーションをランダムより少し良い程度でしか区別できなかった
学習は RL エージェントが作成した行動・観測記録をもとに、拡散モデルが過去フレームと行動シーケンスから次フレームを生成する方式
推論中に蓄積する自己回帰的なドリフトを減らすため、学習時にコンテキストフレームへガウスノイズを追加し、長時間の視覚的安定性に重要な役割を果たす

ニューラルネットワークだけで実行される DOOM シミュレーション

GameNGen は、複雑な環境で長い軌跡にわたりリアルタイムなインタラクションを可能にする、ニューラルネットワークモデルベースのゲームエンジン
デモは、人々が DOOM をプレイするリアルタイム録画を、GameNGen ニューラルネットワークモデルだけでシミュレーションした結果
性能と品質は、実際のプレイとの区別しにくさに重点を置いている
- 単一の TPU 上で 20fps 以上で DOOM をインタラクティブにシミュレーションする
- 次フレーム予測は PSNR 29.4を達成
- この PSNR は非可逆 JPEG 圧縮と同程度
- 人間の評価者は短いゲームクリップとシミュレーションクリップを、ランダム推測よりわずかに良い程度でしか区別できなかった
関連資料は Paper と Arxiv で確認できる

学習データと生成モデルの構成

データ収集は、人間のプレイを大規模に集める代わりに、自動 RL エージェントを学習させて行う
- エージェントの学習エピソードで行動と観測を保存する
- 保存された行動・観測記録が生成モデルの学習データになる
生成モデルは小さな拡散モデルである Stable Diffusion v1.4 を再利用する
- 以前の行動と観測フレームのシーケンスを条件として次フレームを生成する
- 自己回帰推論で生じるドリフトを減らすため、学習時にエンコードされたコンテキストフレームへガウスノイズを追加する
- このノイズ注入は、前フレームからサンプリングされた情報をモデルが補正できるようにし、長時間にわたる視覚的安定性の維持に重要
Stable Diffusion v1.4 の事前学習済みオートエンコーダは、8x8 ピクセルパッチを4つの潜在チャネルに圧縮する
- ゲームフレーム予測では、小さなディテール、とくに下部の HUD バーに目立つアーティファクトが生じる
- 画像品質を高めるため、潜在オートエンコーダのデコーダだけを目標フレームのピクセルに対する MSE 損失で学習する

1件のコメント

GN⁺ 2024-08-29

Hacker News のコメント

拡散モデルには思っていたよりも 原因・結果・順序性 が多く含まれているようで驚いた。
Google が拡散モデルの中核に SD 1.4 を使ったことも、巨大クラウド独占企業にとっても公開モデルが有用だというよい reminder だ。
要約で印象的だったのは、1) エージェントに Doom をプレイさせることで、実質的に無限の学習データを得た点、2) 元のフレームにガウスノイズを加え、続くフレームを再び「補正」するように報酬を与えた点で、これが長期的に安定した「レンダリング」の鍵だったという点。
特に最後の点は、モデルに誤り訂正と安定性を教えるという直感として興味深い。
このモデルを「Doom ベースのモデル」のように見て、フォトリアルやレイトレーシング風にファインチューニングすれば、より見栄えのよいレンダリングを得やすいのかも気になる。
- デモ動画を詳しく見ると、「原因・結果・順序性」は少し控えめに見たほうがよい。
  プレイヤーはほとんど引き返さないが、実際にキャラクターが振り返って同じものを再び見ると、かなり変わっている。灰色の壁と三角形の標識がある部屋が特に目立つ。
  これは拡散モデルで予想される挙動と合っている。数十億フレームのゲームプレイで学習され、直前の数フレームをもとにもっともらしい「次の」フレームをうまく作れるが、レベル構造を記憶するような 論理的なゲーム制約 を深く理解しているわけではない。
- いくつか誤解を整理すると、拡散モデル自体が 状態を保持するわけではない。
  重みに原因・結果のような概念が一部エンコードされている可能性はあるが、モデルは一度に1フレームだけをレンダリングする。そもそもテキスト画像モデルであって、テキスト動画モデルではない。
  テキストの代わりに、前の状態とフレームが次フレーム予測の入力として入る。
  ノイズは SD モデルに入れる前の前フレームに追加されるもので、強化学習エージェントがそれを「補正」したわけではない。
  ノイズ除去目標 は機械学習で広く使われており、直感的には、予測モデルに周辺フレームや単語のような文脈を活用することを強制する。
  ここでは、生成拡散モデルのランダム性から生じる小さな誤りが蓄積して自己回帰的なドリフトが起きるのを防ぐ助けになる。Figure 4 では、プレイヤーがじっと立っているときにそのようなドリフトが現れている。
- これはゲームというより、直前の数フレームをもとに次のフレームを予測する ゲーム映像の記憶 に近い。
  「次に何が起きたかを想像できる」といった感じだ。
  世界で最も非効率な動画圧縮と呼びたい。
  本当に見たいのは実際の予測力、つまり想像力だ。アブストラクトではよく見えなかった。
  モデルは古典的なマップセットで学習されているが、見慣れないマップのゲームプレイを数フレーム入力したら何をするのだろうか。次に起きることをどれほど上手く想像できるのだろうか。
- 巨大企業がすべてのプロジェクトに全リソースを注ぎ込むと考えるのは、よくある勘違いだ。
  この論文は共著者4人で書かれている。かなり多くのリソースを受け取っただろうが、それでも研究部門に割り当てられたリソースプールの中で分け合って使う必要があったはずだ。
  Google でさえ Gemini はいくつかのバージョンがあるだけで、基本的には一つしかない。
- Google なら、以前の LLM メモ以降、この点を最もよく分かっているはずだ。大意は「私たちは公開モデルと戦ったり競争したりしようとして負けつつある」というものだった: https://www.semianalysis.com/p/google-we-have-no-moat-and-ne...
これが動くこと自体が信じられないほど驚きで、20fps レンダリングまでできる点もすごい
前のフレームと行動をエンコードして各ステップでモデルに入れる必要があったので、拡散モデルとリカレントニューラルネットワークを混ぜたように見える
抽象的には、モデルがたくさんプレイしたゲームを夢に見ていて、リアルタイム入力がその夢の状態を変えている感じだ
人間も、もう少し多くの記憶を内蔵した「次の瞬間予測マシン」なのか気になってくる
- 人間にこういう能力があるのは、かなり筋が通っている
  論理を逆にして、次のフレームを現在のフレームの結果として予想される仮説と見るなら、この「仮説」と実際の感覚を比較するほうが、感覚入力全体を処理するより差分を処理しやすい
  Richard Dawkins が最近のポッドキャスト[1]で言っていたように、遺伝子は生存が予測に依存しているため、優れた予測マシンだ。視覚に使うリソース量を考えると、視覚予測を生成する能力はよく噛み合っている
  だとすると、アファンタジアは何を示しているのだろうか？
  [1] https://podcasts.apple.com/dk/podcast/into-the-impossible-wi...
- 人間は実際にそういう存在なのかもしれない。少なくとも Lisa Feldman Barrett はそう見ている
  Lex Fridman のポッドキャスト “Counterintuitive Ideas About How the Brain Works”[2] は聴く価値がある。彼女は、脳が反応よりも継続的な予測として動くのが最も効率的であることなどを説明している
  サイエンスコミュニケーターとしても優れていて、つい聴き続けてしまう
  [1] https://en.wikipedia.org/wiki/Lisa_Feldman_Barrett
  [2] https://www.youtube.com/watch?v=NbdRIVCBqNI&t=1443s
- その通り。予測符号化を見ればいい: https://en.wikipedia.org/wiki/Predictive_coding
- 全体が v5 TPU 上で動いている: https://cloud.google.com/blog/products/ai-machine-learning/i...
  3090 のようなハイエンド消費者向け GPU とどう比較されるのかは明確ではないが、INT8 TFLOPS は同程度に見える。TPU はメモリが少なく（16GB 対 24GB）、他の仕様はよく分からない
  それでも何か辻褄が合わない。SD は普通、3090 でも高品質な結果を1つ作るには少なくとも数秒はかかるのに、ここではほぼ1桁から2桁倍速いことになる。このタスクでは TPU が GPU を圧倒しているという意味に見える
  低解像度（320x240）の画像を作っているようだが、それでも速すぎるように感じる
- 人間を「次の瞬間予測マシン」と見るのは、過度に還元主義的に見える
  AI から出発して逆にたどりながら、すべての認知を「次の何かの予測器」という枠に押し込んでいる感じだ
  結局、確率的オウム論争の繰り返しだ
このスレッドを見て、この論文がリアルタイムのユーザー入力を受け取り、それを出力に反映するシステムを説明しているわけではないと指摘する価値があると思った
ただし、アブストラクトの表現はそうしたことが起きているかのように強く示唆していると感じた
エージェントがDOOMをプレイした大規模データで学習し、ユーザー評価用の動画サンプルを提供しているが、ユーザーがリアルタイムでシミュレーションに入力を入れて約20FPSで「DOOMをプレイ」する方式ではない
論文中には「ゲームを最初にどう効果的に作るか、人間の入力をどう最もうまく活用するかといった核心的な問いが残っている」、「最終目標は人間のプレイヤーがシミュレーションと相互作用できるようにすることだ」といった文言が手がかりとしてある
何より、リアルタイムのユーザーゲームプレイを説明する節が抜けている
- モデルが公開されていないのでゲームプレイの品質を直接評価することはできないが、著者の一人は「プレイ可能で、プロジェクトページの動画は実際のゲームプレイだ」と述べている: https://x.com/shlomifruchter/status/1828850796840268009
  https://gamengen.github.io/ の冒頭の動画も「これらは人々がゲームをプレイしているリアルタイム録画です」と始まっている
  これらの主張を見ると、プロジェクトの終盤には人間の前に置けるプレイ可能なシステムを作ったようだ。ただし、arXivに草稿が上がった時点ではそうではなかったのかもしれない
- 最初は自分もそう思ったが、アブストラクトではなく論文を読み直すと違う
  「Aはキー入力とマウス移動の集合…」であり、「…行動で条件付けるために各行動に対する埋め込み A_emb を学習する」と書かれている
  つまり、このモデルの拡散過程は単語ではなく、ユーザー行動から来た行動埋め込み Aで条件付けられている
  そのうえで、ノイズの混じった開始フレームを潜在表現にエンコードし、ノイズ付き潜在表現に2つ目の条件として連結する
  結局、DOOMの画像だけで学習され、現在のDOOMフレームとユーザー行動で条件付けられて後続フレームを作る拡散モデルだ
  だからユーザーは実際にプレイしていると言える
  ただし、これが可能だというのは驚くことではない。実質的にはゲームのニューラルネットワーク録画版だが、見事な技術デモだ
- 論文がこの部分をもっと明確に書くべきなのは確かだが、5.2.3節の文のためにプレイ可能で、人がプレイしたと見ている
  「モデルを手動でプレイすると、ある区域はどちらにとっても非常に簡単で、ある区域はどちらにとっても非常に難しく、ある区域ではエージェントのほうがはるかにうまくやる」と書かれている
  想像力が足りないだけかもしれないが、「モデルを手動でプレイする」を別の合理的な形で解釈する方法が思い浮かばない
- 説明された内容は、この素晴らしいプロジェクトを思い出させる:
  https://www.youtube.com/watch?v=udPY5rQVoW0
  “Playing a Neural Network's version of GTA V: GAN Theft Auto”
- それは間違い。これは人間がプレイできるインタラクティブなシミュレーションだ
  “Figure 1: a human player is playing DOOM on GameNGen at 20 FPS.”
  アブストラクトの文が曖昧なため、ここで多くの混乱が生じたが、論文はこの点では明白だ
  技術に詳しい人が多いフォーラムで、こうした誤情報が高く推薦されているのはかなり残念だ
あらゆるものの上でDoomを動かそうとする探求は続く
技術的に言えば、これは可能な限り最も偉大なアンチDoom、つまりハードウェア要件が最も高いDoomではないのか？
ハードウェア仕様を線形の軸に置くと、Doomが今や両端にあるというのが面白い
- この部分を読んだときは、技術的にはDoomをまったく実行していないからだと言おうとしているのかと思った
  つまり、Doom本来のハードウェア・ソフトウェア環境なしに移植して実行するのではなく、DoomそのものなしでDoomを実行しているわけだ
- ハードウェア要件が最も高いDoomというなら、レイキャスティングのレンダリング目標を任意に高く設定することでも可能では？
- これはNo-Doomだ
- 本当に偉大なアンチDoomは、こうしたモデルが無限に入れ子になり、モデルがモデルを予測し、その先でDoomを予測する構造になるはずだ
  次の段階のアンチDoomは、モデルを生成するモデルがDoomの出力を生成することだ
- ここでより近いたとえは「Minecraftの中でMinecraftを実行する」だと思う: https://news.ycombinator.com/item?id=32901461
Doomのシステム要件:
4MB RAM、12MBのディスク容量
Stable Diffusion v1は860MのUNetとCLIP ViT-L/14（540M）、チェックポイントサイズは4.27GB、完全なEMAは7.7GB
TPU-v5e上で動作し、チップあたりの最大演算性能はbf16で197 TFLOPs、Int8で393 TFLOPs、HBM2の容量と帯域幅は16GBと819GBps、チップ間接続帯域幅は1600Gbps
速度を考えるとかなり印象的だが、改善の余地は非常に大きい。容量的には何百回も暗記できそうなのに、ゲームを完全には暗記できていないように見える
だから最適化手法の余地は確実に大きい。ただしここでは目標が暗記なので、そうした手法が既存技術にどんな影響を与えるかは分からない
興味深いのは、十分に多く「プレイ」して自動化し、ストレージと計算をはるかに多く使えば、ゲームを抜き出せるという意味になる点だ
Doomをリバースエンジニアリングするエンジニアを雇った場合とのコスト・時間比較が気になる。事前知識をどこまで許すかも曖昧だ。事前学習モデルとViZDoom環境を考えると、DoomのソースがT5に含まれていたのか、どのViTチェックポイントを使ったのかも気になる
このモデルのチェックポイントをぜひ見てみたい。人々が分解してみれば、本当に面白いものが見つかりそうだ
https://www.reddit.com/r/gaming/comments/a4yi5t/original_doo...
https://huggingface.co/CompVis/stable-diffusion-v-1-4-origin...
https://cloud.google.com/tpu/docs/v5e
https://github.com/Farama-Foundation/ViZDoom
https://zdoom.org/index
- 指摘は妥当だが、この研究の文脈では核心ではない
  元のゲームと比べると計算コストが途方もなく高く、事前計算や保存といった基本要素が欠けているのも事実だ
  しかしそうしたものは、この発見の周辺で解決されたり、時間とともに自然に改善されたり、ボトルネックとしての重要性が下がったりし得る
  明示的にエンコードしなくても、そうした文脈認識型のフレームシーケンスをモデル化できる点こそが本当のブレークスルーだ。純粋なゲームの観点でもそうだし、一般的なシミュレーションの観点でもそうだ
- ゲームを「抜き出す」というのは小さな部分にすぎない
  より大きな意味は、現実の映像からゲームを生成できるということだ
  完璧なフライトシミュレーターが必要なら、1年間すべての旅客機のコックピットにGoProを取り付ければいい
こういう記事でデッドコメントを読むのはいつも面白い。どれほど無意味かを指摘するのが好きだ
ただ作るのが楽しいから何かを作る、ということを学ぶべき人もいる
これは役に立つのか？実のところ、あまりそうではない。面白いのか？間違いなくそうだ
すべてが利益のために作られる必要はない。世界をより良くするために作られる必要もない
ときには学習、挑戦、可能性の確認が目的になり得る
楽しんで過ごした時間は決して無駄ではない。臨終のときに、もっと楽しめなかったことを後悔する人もいるだろう
- このスレッドの懐疑や批判はAIの誇大宣伝に向けられたものだ
  「これは本当にすごい」という言葉には、近い将来あらゆるソフトウェアをAIモデルに置き換え、想像し得るどんなビデオゲーム体験でも作れるようになると考えている、という含みがある
  現実的には、これはこれまで作られたDoomの中で最も非効率で信頼性の低い形だ。Doomをリアルタイムにレンダリングしてプレイできた初期のx86 PCより、文字どおり何百万倍もの演算を使っている
  もちろん、面白い一発芸ではある
- 本当にその通り。ハッスル文化は、80〜90年代の楽しいメイカー文化に取って代わった、広がる病のように見える
  避けられない面もある。生活費が上がり続け、起業家をロックスターのようにロマン化することで、こうしたハッスル思考につながっている
- 今はこの実験が無意味に見える
  だが「インターネットラジオ」の可能性についての記事が出ていた頃を覚えている。昔のように放送波を空中に飛ばして何千台ものラジオが同調して聴くのではなく、あるサーバーが膨大なパケットをとてつもない長さの銅線で何千ものエンドポイントに送る方式だった
  しかもエンドポイントが接続を維持するために、哀れなサーバーへACKパケットまで送り返すという点は、計算力、配線、エネルギーの無駄に見えた
  ところが今では、その銅線でNetflix映画を一気見している
  ゲームがユーザー入力に基づく次の画像を夢見る拡散モデルに置き換わると言っているわけではないが、その変種がインタラクティブなアート制作や新しい形のエンターテインメントになり得る
- これが役に立たないとは思わない。完全に新しいゲーム生成へ向かう足がかりだ
- その楽しみのカーボンフットプリントが気になる
印象的ではあるものの、同意しにくい。拡散モデルはゲームエンジンではない
ゲームエンジンは、ゲームを時間軸に沿って進行させる構成要素である。だから自動車のエンジンに似ていて、名前もそこから来ている
エンジンが仕事をするのに、完成した自動車や走る道路は必要ない
上のものは、与えられた道路に自動車を載せたときに起きることを、動的かつインタラクティブに複製したものに近く、動く車両で100万回の試験走行をしなければならない
エンジンならオフロードでも動くべきだ
- これは拡散モデル一般ではなく、特定の学習済み結果モデルへの批判に近い
  現在形で「作業をするには道路上の動く車が必要だ」というより、過去形で「それを行うよう学習させるには必要だった」と言うのが正しい
  他のエンジンがどう動作するかから得た概念を使うゲームエンジンが、なぜゲームエンジンではなくなるのかも明確ではない
  拡散モデル一般について見れば、通常の拡散モデルが学習画像と完全に同じものだけを生成するのではなく、補間したり個別の概念を適用して新しい出力を作れたりするのと同様に、このアプローチも学習した「テストトラック」の外では動作できないと仮定する理由はなさそうだ
- 興味深い点だ
  ある意味では、実際のゲームエンジンのデータで学習されたシミュレートされたゲームエンジンである
  しかし、動作するシミュレーションゲームエンジンが「ゲームを進行」させられるなら、それ自体がゲームエンジンになると思う。どう実現しているかは重要ではない
  一方は人間がコンテンツを作り、もう一方は既存のゲームコンテンツを模倣するが、プレイヤーは気にしない
  このような「生成型ゲームエンジン」もオフロードに行けると想像できる。見たことのない場所に行ったとき何が起きるかを外挿するようなものだ
  むしろ、この種のモデルの外挿能力は従来のゲームエンジンより優れているかもしれない。一般的なゲームエンジンでは偶然壁を通り抜けると画面が空になってしまうが、このモデルは進みながら作り出せる
SDモデルではテキスト条件は取り除いたので入っていないが、近い将来にはテキストプロンプトだけで面白い新作ゲームを作れると想像できる
DOOMがどのような見た目でどう動くかを学ぶには強化学習を使う必要があったが、これは必ずしも鶏と卵の問題を意味しない
LLMが既存のテキストだけで学習されていても新しい物語を書けるのと似ている
このアプローチの最大の課題の1つは、可能な状態数が事実上無限であるオープンワールドゲームだろう
論文も、強化学習エージェントにDOOMの隅々まで完全に探索させるのに苦労したと述べている
FactorioやDwarf Fortressがすぐにシミュレートされることはなさそうだ。たぶん
- 十分な計算資源があれば、ニューラルネットワークの重みはDOOMソースコードの非常に圧縮された潜在表現に収束するだろう
  もしかするとソースコード自体より小さいかもしれない。この分野の人が訂正してくれそうだ
  その時点では、事実上ソースコードを潜在空間で補間しながらゲームを「レンダリング」することになる。エンジン、アセット、テクスチャ、ソフトウェアレンダラを備えた潜在空間コンピュータ全体があるようなものだ
  十分に強力なコンピュータなら、FactorioとTF2のようなゲームの間の潜在空間補間も想像できる。そして望むゲームプレイ面に条件をかけてこの潜在空間を調整できる
  このような未来は、レンダリングの最終段階のようなパイプラインの一部では非常に早く訪れる。たとえばDLSSはすでに商用化されている
  いつか皆がニューラルネットワークのメタバースにボルトで固定され、Nvidiaの売上が再びゲームに戻ってくるかもしれない
  DOOMを選んだのは本当に良い
- 同じように、ごく単純なゲームエンジンを走らせて低解像度のワイヤーフレーム程度だけを出力させ、それをアップスケールすることもできる
  ゲームメカニクスにだけすべての労力を注ぎ、視覚品質には使わないやり方だ
  この方式は、振り返ってもう一度見たときに赤い怪物が青い味方に変わるような視覚的不整合を減らすのに、より適していると期待している
- 「テキストプロンプトだけで面白い新作ゲーム」を作れると思うなら、自分でそういうプロンプトを書いてみればよい
  Marioのような比較的単純なプラットフォームゲームから始めてもよい
  300ページほど書いて、まだ半分くらいしか説明できていない頃には、なぜこれが希望的観測なのか理解するだろう
- 実際にはそうではない。これはDoomの最初のレベルの再現だ。新しいものが作られているわけではない
- 近い将来のビデオゲームは大きく変わるだろう
  1人がモデルと対話して、今日のAAAタイトル級のものを作れるかもしれない
  Steamの2D横スクロールブームを思い浮かべつつ、それが没入型のフォトリアルな3Dゲームで、超現実的な物理（水の流れ、燃え広がる火、竜巻）と、完全な変形・建設可能性を備えたゲームだと考えればよい
  モデルは現実の映像で事前学習されていて、ゲームは外観・設定・物語に関する事前分布を少し調整する「スタイル」にすぎない、という形だ
すでにゲームを作った後なら、拡散モデルがゲームエンジンだということなのか？モデルの学習にはゲームが必要だ。鶏と卵では？
- いくつかアイデアがある
  リアルタイムではない版のゲームエンジンを作り、ニューラルネットワークをリアルタイム近似として使うことができる
  現実で撮影した映像にHUDのようなものを編集で入れ、ニューラルネットワークにDoomではなく現実をシミュレートするよう学習させることもできる
  この論文は9億フレームを使っているが、30fpsなら約1年分の映像だと思う。アルゴリズムの改善で学習に必要な量は減るかもしれない
  1年分の映像も実際にはそれほど多い量ではない。たとえば500人を集め、頭とペイントボール銃にGoPro、加速度計、ジャイロを取り付けて週末の間ペイントボールをさせれば、1年分の映像を得られるかもしれない
- 複数のゲームで学習すれば、画像生成モデルが存在したことのない新しい画像を作れるように、存在したことのない新しいゲームを作れる
- 次の段階は、テキストガイダンスを追加して存在しないゲームを生成することかもしれない
- 生成画像についても同じことが言えるのでは？
- 将来は、物理や既知の法則をモデルにエンコードできる科学的機械学習の手法が基盤モデルを構成するかもしれない
  その上の別のモデルが、ゲームをカスタマイズするために細部だけをファインチューニングする形だ
拡散モデルはゲームエンジンにはなり得ない。ゲームエンジンは新しいゲームを作り、既存ゲームのルールをリアルタイムで変えられなければならないからだ
画面に見えないルールさえも変えられる必要がある
こうしたツールは興味深いが、あらゆるAIの誇大宣伝と同じく、免責文言が必要だ
このツールがゲームを作ったのではなく、人間が作ったゲームをサンプリングして、フレームとプレイメカニクスの見た目を生成しただけだ
- 画面に決して表示されないルールが変わったのだとしたら、それは本当に変わったと言えるのか？
  「単に」生成しただけ？機械的には単純かもしれないというのは分かるが、それほど豊かな条件付き分布を圧縮したという事実は、まったく単純には見えない
- 彼らは1つのゲームだけで学習し、制御入力だけを埋め込んだ
  複数のゲームで学習し、各ゲームに関するはるかに多くの情報を埋め込めば、ゲームを説明するプロンプトを指定してプレイできるようになる可能性がある
- ローポリのアセットでレンダリングされた、あるいは何らかの形でセグメント化されたゲームを取り込み、拡散モデルで写実的または様式化されたアートのディテールを追加するところを見てみたい
  そうすれば一貫性の問題を修正しつつ、実質的な利点も得られる
- タイトルは「拡散モデルは、ユーザー入力が与えられたときにフレームをレンダリングするために使える」であるべきだ
- 結局のところ、学習に使った映像とは少し違うゲームプレイ映像を生成しただけなのか？

拡散モデルはリアルタイムゲームエンジンである

ニューラルネットワークだけで実行される DOOM シミュレーション

学習データと生成モデルの構成

関連記事

1件のコメント

Hacker News のコメント