世界シミュレーターとしての動画生成モデル

(openai.com)

1 ポイント投稿者 GN⁺ 2024-02-17 | 1件のコメント | WhatsAppで共有

OpenAIはSoraを通じて、動画生成モデルを単なる映像合成を超えて物理・デジタル世界のシミュレーションへ拡張できるかを探っている
中核設計は、動画と画像を時間・空間的に圧縮した潜在空間に入れ、これを時空間パッチに分割してTransformerトークンのように学習する方式である
Soraは固定サイズで切り出さず、可変長・解像度・アスペクト比をそのまま学習し、ワイドスクリーン、縦型動画、高解像度画像の生成を同じモデルで処理する
DALL·E 3の再キャプショニングを動画に適用し、GPTで短いプロンプトを詳細なキャプションへ拡張してテキスト忠実度と映像品質を高めている
3D一貫性、オブジェクトの持続性、Minecraftのようなデジタル世界のシミュレーションは一部可能だが、ガラスの破損や食事のような状態変化を要する物理的相互作用には限界が残っている

Soraが扱う問題と報告の範囲

OpenAIは動画データに対する大規模生成モデル学習を探究している
Soraは、さまざまな長さ、解像度、アスペクト比の動画と画像を一緒に学習するテキスト条件付き拡散モデルである
最大のモデルであるSoraは、最大1分の高忠実度動画を生成できる
この技術報告は2点に焦点を当てる
- 多様な視覚データを大規模生成モデル学習に適した統合表現へ変換する方法
- Soraの能力と限界に関する定性的評価
モデルの詳細構造や実装の詳細は含まない
従来の動画生成研究は、再帰型ニューラルネットワーク、GAN、自己回帰Transformer、拡散モデルなど複数の手法を用いてきたが、狭いデータカテゴリ、短い動画、固定サイズの動画に集中することが多かった
Soraは、さまざまな長さ、アスペクト比、解像度にまたがって動画と画像を生成する汎用視覚データモデルとして設計されている

視覚データをパッチで統合する方式

大規模言語モデルがテキストトークンでコード、数学、自然言語を統合するように、Soraは視覚データにパッチを用いる
動画はまず低次元の潜在空間へ圧縮され、その後時空間パッチへ分解される
パッチベースの表現は、多様な動画と画像のタイプを学習するうえで拡張性があり、効果的に機能する

動画圧縮と時空間潜在パッチ

Soraは元の動画をピクセル空間で直接扱わず、時間・空間的に圧縮された潜在表現で学習と生成を行う
別個のデコーダモデルが、生成された潜在表現を再びピクセル空間へ写像する
圧縮された入力動画から抽出した時空間パッチ列は、Transformerのトークンのように機能する
画像は単一フレームの動画と見なせるため、同じ方法で処理できる
推論時には、ランダム初期化したパッチを所望サイズの格子に配置し、生成動画のサイズを制御する

動画生成のための拡散Transformer拡張

Soraは、ノイズを含むパッチとテキストプロンプトのような条件情報を入力として受け取り、元のクリーンなパッチを予測するよう学習される拡散モデルである
同時にSoraは拡散Transformerでもある
Transformerは言語モデリング、コンピュータビジョン、画像生成など複数領域でスケーリング特性を示しており、Soraでも動画モデルとして効果的に拡張される
同じseedと入力でも、学習が進み計算量が増えるほどサンプル品質は明確に向上する
- 比較例は base compute、4x compute、32x compute で構成される

元のサイズで学習する利点

従来の画像・動画生成アプローチは通常、4秒、256x256のような標準サイズにリサイズ、クロップ、トリミングする
Soraはデータを元のサイズで学習する方式から複数の利点を得ている
サンプリングの柔軟性
- Soraは1920x1080pのワイドスクリーン動画、1080x1920の縦型動画、その中間のさまざまな動画をサンプリングできる
- 異なるデバイス向けのコンテンツをネイティブなアスペクト比で直接生成できる
- 同じモデルで低サイズの高速プロトタイピングを行い、その後フル解像度で生成できる
フレーミングと構図の改善
- 元のアスペクト比で学習すると構図とフレーミングが改善される
- すべての学習動画を正方形にクロップしたモデルは、被写体が部分的にしか映らない動画を作ることがある
- Soraは正方形クロップモデルよりフレーミングが改善された動画を生成する

言語理解とキャプション処理

テキストから動画を生成するシステムを学習するには、対応するテキストキャプションを持つ大量の動画が必要である
OpenAIはDALL·E 3で導入した再キャプショニング手法を動画に適用している
まず非常に詳細なキャプションを生成するモデルを学習し、次にそれを使って学習用の全動画にテキストキャプションを生成する
詳細な動画キャプションで学習すると、テキスト忠実度と動画全体の品質が向上する
DALL·E 3と同様に、GPTを使って短いユーザープロンプトを長く詳細なキャプションへ変換し、それを動画モデルに渡す
この方式は、Soraがユーザープロンプトにより正確に従う高品質な動画を生成するために用いられる

画像と動画を入力に使う生成・編集

Soraはテキストだけでなく、既存の画像や動画もプロンプトとして受け取れる
この機能は、完全に繰り返される動画生成、静止画像のアニメーション化、動画を前後の時間方向へ拡張する作業などに活用される
DALL·E画像のアニメーション化
- Soraは画像とプロンプトを入力として動画を生成できる
- 例はDALL·E 2およびDALL·E 3の画像をもとにした動画生成で構成される
生成動画の拡張
- Soraは動画を時間方向に前方または後方へ拡張できる
- 生成動画のある区間から始めて後方の時間へ拡張した3本の動画は、異なる開始点を持ちながら同じ結末へつながる
- 同じ方法で動画を前後に拡張し、切れ目のない無限ループを作ることもできる
動画から動画への編集と接続
- 拡散モデルベースの画像・動画編集手法の1つである SDEdit をSoraに適用している
- この手法により、Soraは入力動画のスタイルと環境をゼロショットで変換できる
- 2本の入力動画の間を段階的に補間し、主題やシーン構成がまったく異なる動画同士でも滑らかな遷移を作り出せる

画像生成能力

Soraは画像も生成できる
時間長が1フレームの空間格子にGaussian noiseパッチを配置する方式で画像を生成する
生成可能な画像サイズは可変で、最大2048x2048解像度まで対応する
例のプロンプトは、秋の人物クローズアップ、サンゴ礁、リンゴの木の下の幼いトラのデジタルアート、オーロラのある雪に覆われた山間の村などで構成される

スケール拡大で現れたシミュレーション能力

大規模に学習された動画モデルは、人間、動物、環境の一部の側面をシミュレートする創発的能力を示す
こうした特性は、3Dやオブジェクトに対する明示的な帰納バイアスなしに、スケール拡大によって現れた現象として扱われる
3D一貫性
- Soraは動的なカメラ移動を含む動画を生成できる
- カメラが移動または回転するとき、人やシーン要素は3次元空間で一貫して動く
長期一貫性とオブジェクトの持続性
- 長い動画サンプルで時間的一貫性を維持することは、動画生成システムにおける重要な課題である
- Soraは常にではないが、短距離および長距離の依存関係を効果的にモデリングできる場合がある
- 人、動物、オブジェクトが遮られたりフレーム外に出たりしても持続させることがある
- 1つのサンプル内で同じキャラクターの複数ショットを作り、動画全体で外見を維持できる
世界との相互作用
- Soraは単純な形で世界の状態に影響を与える行動を時折シミュレートする
- 例として、画家がキャンバスに残した筆跡が時間が経っても維持される場合や、人がハンバーガーを食べてかじられた跡が残る場合がある
デジタル世界のシミュレーション
- Soraはビデオゲームのような人工的プロセスもシミュレートできる
- Minecraftの例では、基本ポリシーでプレイヤーを制御しながら、世界とダイナミクスを高忠実度でレンダリングできる
- 「Minecraft」に言及するキャプションプロンプトだけで、こうした能力をゼロショットで引き出せる

現在の限界と結論

Soraはシミュレーターとして複数の限界を持つ
ガラスが割れるような多くの基本的相互作用の物理を正確にモデル化できない
食べ物を食べる相互作用のように、オブジェクトの状態が正しく変化しなければならない場合も常に正確とは限らない
長いサンプルで一貫性が崩れたりオブジェクトが突然現れたりする失敗例は、Soraランディングページにさらに示されている
現在の能力は、動画モデルの継続的な拡張が、物理・デジタル世界と、その中のオブジェクト、動物、人間を扱う有能なシミュレーター開発への道筋になりうることを示している

1件のコメント

GN⁺ 2024-02-17

Hacker Newsのコメント

この技術が何を可能にするのかを見落としているように思う。現実的な物理法則を持つもっともらしい連続した映像シーンを作れ、それが十分に高速化されてリアルタイムで動作するなら、大きな変化が起きる
リアルタイムのカメラフィードを持つロボットに接続し、入力される画面のあり得る未来のシーンを継続的に複数生成させれば、周囲の世界のリアルタイムモデルを作り、未来を予測する自律ロボットになる。各予測が実際の結果とどれだけ一致したかに基づいて誤差補正を加えれば、AGIに本当にかなり近づけると思う
出力はテキスト生成や自己運動制御と接続でき、自分が取り得る行動の結果を予測したうえで最善の行動を選ぶ方式も想像できる。こうした用途なら、画像が完全に写実的である必要も、エラーがない必要も、高解像度である必要もない。私たち自身の世界の想像がどれほど写実的かを考えてみる価値がある
例えば家庭用掃除ロボットがリビングの画像を見て、掃除が終わったリビングの画像を作り、その後自分が部屋を掃除する映像を補間して想像し、その映像に合わせて可能な限り行動し、また連続シーンを作って行動する、といった形だ。必要なら1秒間に何度も繰り返せる
- これは計画立案に使う世界モデルを持つエージェントに近い。実際に写実的な画像を生成する必要はあまりなく、世界モデルは独自の圧縮された抽象表現の中で動作する
  こうしたシステムとしては V-Jepa が参考になる: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-jo...
- 理論上はその通りだが、問題は私たちが理論上のAGIをすでに何度も手にしてきたことだ。例えばQ学習は、あるゲームやシステムの状態をニューラルネットワークに入力し、可能な将来報酬を予測させ、その予測精度を反復的に改善すれば、最終的にはどんなシステムでも最適行動に到達する、というようなものだ
  強化学習の実験をすると、「スイッチを入れるだけでうまく動き、すごい解法をたくさん見つけるだろう」という期待はいつも魅力的だが、実際にはそうなることもあっても、たいていはそうならない。学習の兆候は見えても、驚異的な結果には至らないことが多い
  Civilization のようなビデオゲームで強い人工知能が出てくるかを見続けているのも、複雑なシステムの問題を解きつつ、ゲーム開発者が実用的に実装できるほど現実的かを確かめたいからだ。専門家チームが研究プロジェクトとして Civilization を解くことはできるだろうが、実用性とはほど遠い。ゲーム内AIが最善手を予測する前に、人間の Civilization プレイ動画を見せるだけで映像モデルが最善手を予測できるのかは疑わしい
- 興味深いのは、動画データが非常に多いため、いまや2Dピクセル空間で未来を投影できるモデルが生まれたことだ
  ロボティクスの最終目標は実際には3D世界空間で未来を投影することであり、3D世界モデルがどれだけ複雑か次第では、実用可能な3D投影モデルはずっと小さくできる可能性があると思う
  ただし、それに相当するデータがインターネット上に同じほど容易に存在しているわけではない
- 別の返信が言うように、これは Yann LeCun が [1] で提示した目標指向AIのアイデアに通じている。論文ではその名前は使っていないが、LeCun は講演やスライドでそう呼んでおり、同時にこうしたものは生成モデルでは達成できないとも言ってきた
  AI分野に長くいると、DeepBlue から畳み込みニューラルネットワーク、深層強化学習、そして現在の大規模言語モデルに至るまで、AGIにつながるとされたブレークスルーを何度も目にする。そのたびに、それは人々が考えていた種類の突破口ではなかったか、あるいはAGIには工学的な突破口ひとつよりもはるかに多くのものが必要だということを意味しているのかもしれない
  このアイデアが可能だと思うなら、単純な環境で自分で試してみればよい。小さなグリッドワールドや Nethack [2] のようなテキストベースゲームを単純化したものを作り、試験管の中で実装して、どれくらいうまく動くか確認できる。論文も書けるだろう
  [1] https://openreview.net/pdf?id=BZ5a1r-kVsf
  [2] Nethack 自体から始めないほうがよい。「AI」にとっては難しすぎる
- Sora のようなシステムは確かに必要だが、それだけでは十分ではない。きちんと推論できるマルチモーダルモデルと組み合わされれば、AGI、より正確には ASI に近づく可能性がある
  人間より長いコンテキスト長、赤外線や電気感覚のような追加の感覚モダリティ、はるかに広い専門性、巨大な帯域幅といった利点があるからだ
  Sora の将来の後継モデル + GPT-4 の有力な後継モデル = ASI だと思う
  関連して書いた別のコメント: https://news.ycombinator.com/item?id=39391971
このページが最上位の結果だけでなく、いくつかの失敗例も見せているのが良い
たとえばサーファーが最後に空中でサーフィンしている: https://cdn.openai.com/tmp/s/prompting_7.mp4
割れるはずのガラスが割れず、奇妙な形で液体だけが流れる場面もある: https://cdn.openai.com/tmp/s/discussion_0.mp4
この人の歩き方もおかしい: https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-a...
この地図がどこから出てきたのかも分からない: https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls...
- 一部の代表的な映像でも遠近感と視差の誤りが見られる。人物の被写体が背景の人たちに比べて大きすぎたり、合っていない水平面の上に立っていたりする。実際やや目が回るほどだが、それでも非常に印象的だ
- 地図の場面を見ると、約6秒あたりで3本目の手が地図をどかしている
- 「この人の歩き方」の場面では、なぜ腰の下あたりから傘が飛び出しているのかもおかしい
「食べ物を食べるような相互作用は、常に正しいオブジェクト状態の変化を生み出せるわけではない」という部分を見るに、だから Will Smith がスパゲティを食べる場面を見せなかったのだろう
「ビデオモデルのスケーリングは、物理世界とデジタル世界の高性能シミュレータ開発への有望な経路である」という文はロボティクスには興味深いが、もっと近い用途はガウシアンスプラッティングのシーンの穴埋めかもしれない
空間の3Dウォークスルーを作るには、可能なあらゆる角度を継ぎ目なく覆う何百〜何千枚もの写真が必要で、それでも欠ける部分が出る。この程度のモデルなら、隠れた角、近接ディテール、標準的な再構成では穴やぼやけとして残る部分をもっともらしく復元できそうだ
場所の写真5〜10枚だけでも、どの角度からでも探索できる滑らかで写実的な3Dシーンを得られるかもしれないし、人や不要な物体をシーンから除去することも可能になる。こうして外挿した再構成があらゆる細部で現実と完全に一致するわけではないだろうが、それでも多くの応用を可能にするはずだ
- それは「再構成」というより画家の想像図と呼ぶほうが正確だ。正確な細部が重要でない状況には良いが、細部が重要でないならぼやけていても十分かもしれない
AlphaGo と AlphaZero が超人的な性能を出せたのは、囲碁に対する完全なシミュレータがあったからだ。私たちが生きる現実世界にはそういうシミュレータがない。純粋な大規模言語モデルも、人間が知覚した世界の粗く抽象的な表現をある程度は学ぶが、Sora はディープラーニングでそうしたシミュレータを作ろうとする試みだ
「我々の結果は、ビデオ生成モデルのスケーリングが物理世界の汎用シミュレータを作るための有望な経路であることを示唆している」という文が核心だ
こうしたシミュレータが十分に良くなれば、ソフトウェア面で汎用的かつ超人的なロボット能力を得られる可能性がある。このアプローチで実際に達成可能かどうかはまだ確かではない
なぜ超人的かというと、私たちの作業記憶より長いコンテキスト長が明らかな利点であり、代替的な感覚モダリティや、ほとんどの人間にはなじみのない細部をより高密度にシミュレートする能力も強みになりうるからだ
- 自分の直感に反している点が本当に興味深い。現実のカメラストリームを解析し、見えているものをビデオゲームのようなポリゴン表現にして、その幾何構造の上で AI が意思決定するほうがずっと簡単だと思っていた
  ところが AI の流れは中間段階を飛ばして、ピクセルデータから直接動作する方向に進んでいる。3D幾何、遠近法、物理への理解が学習データから自然に立ち上がることを期待するやり方だ
- 現実世界の完璧なシミュレータはすでにある。カメラで録画すればいい。研究者たちが方向性を定め、1桁倍速く学習する方法を見つける時間が少しあれば、そこに到達するはずだ
Ylecun が、大きなモデルを学習させるには動画のほうが良いと何度も言っていた気がする。動画のほうが情報密度が高いからだ
結果は本当に印象的だ。こうした高品質の動画を生成し、動画の過去と未来を拡張できるということは、モデルが現実世界、オブジェクトの相互作用、3D構成などをどれだけ「理解」しているかを示している
画像生成もすでに世界について多くを知っている必要があるが、動画生成はモデルが3Dと物体の動き、相互作用を理解していなければならないという点で、はるかに大きな隔たりがあると思う
誰かが絵を描いている場面が全部生成動画だというのは狂っているように感じる
自分でも使ってみたいが、どれだけ高くつくのか想像もつかない。フル解像度で学習し、最大1分の動画を生成できるなんて
動画生成はあまりにひどかったので、このレベルに達するにはあと何年もかかると思っていたが、またしてもデータと計算量を増やせばよいという事例のように見える。Transformer が再び、何でも学習してうまくやれることを証明しているようだ
メイン記事も反応が多いが、このページは本当に圧倒的だ。結果のインパクトが強い
ロボットの例はかなり期待外れだが、人間や背景の人物はたいてい非常によくできていて、静止画像の拡散モデルの大半よりはるかに良い水準だ。人が物体と相互作用している間も同じ人物として保たれているのも、こうしたモデルがこんなに早くここまでうまくやるとは予想していなかった
このモデルが明示的な 3Dの事前知識 なしに、ここまで3D的一貫性のある映像を生成するのは驚き。あの映像からそのままNeRFに近い3D表現を学習させられるほど: https://twitter.com/BenMildenhall/status/1758224827788468722
- Stable Diffusionを変形して既存画像から HDR球面環境マップ を作る作業も同様に驚きだった: https://diffusionlight.github.io/
  さらに驚くのは、モデルに画像中央へクローム球をインペインティングさせて、カメラの背後に何があるかを反射として作らせる点。モデルが文脈を解釈し、環境全体にもっともらしく存在しそうなものを想像している
- よく見るとそうでもない。例には不一致が非常に多い。カメラが回転すると遠近法が完全に狂い、窓のパースが変わり、パティオが突然深くなったり浅くなったりする。カメラが動くと影が現れたり消えたりもする
  別の例では道や物体や人が突然現れたり消えたりし、石が人に変わり、馬が突然2つ目の頭を持ったかと思うと脚が2本しかない別の馬になったりもする
  ぱっと見は印象的だが、注意して見ると写実性というより 夢に近い。長期的な時間・空間・因果の一貫性なしに、画像から画像を連想しているようなもの。10年前のGoogle DeepDreamより大幅に印象的だとは言い難い
- モデルのどんな変種なら、画像の代わりに 3Dメッシュとカメラアニメーション を直接出力できるのか気になる
- 2D拡散モデルでも同じ[1]。照明、影、物体の遮蔽などがあるため、3Dがどう機能するかを理解する必要があるようだ
  [1] https://dreamfusion3d.github.io/
- ステレオ画像データで学習させたら、どれほど良くなるのか気になる
興味深いアイデア。大規模言語モデルは単なる「テキスト予測器」だが、一貫したテキストを正しく予測するには言語と世界のモデルを学ばなければならないのと同じように、映像予測器 も筋の通った世界モデルを学ぶ必要があるのは自然だ
これらが同じように有用になるには、今後あと何桁分の規模で進歩する必要があるのか気になる
こうした機能が許されるなら、おそらくプレミアム以上のモデルとして、近いうちに ポルノ産業全体 を崩壊させる可能性すらある。ウェブサイトではなく、しばしば搾取されるセックスワーカーたちの側をだ
誰もが自分の嗜好を描写すれば、こうした映像を作るために実在の人間が苦しむ必要なく、即座に可視化できる。特にアメリカでは口にしづらい敏感な話題だと分かっているが、市場は巨大で、うまくやれば人類の助けになるかもしれない
- ポルノ俳優1人あたり、報酬回路を壊されたポルノ消費者は数千人おり、俳優のうち虐待されている人は一部で、大多数はかなり良い報酬を得ている
  終わりのない 中毒性の刺激 を生み出すことは、人類の助けになることから最も遠い
  この領域で良いことをしたいなら、消費を制限する方法を研究するほうがよい

世界シミュレーターとしての動画生成モデル

Soraが扱う問題と報告の範囲

視覚データをパッチで統合する方式

動画圧縮と時空間潜在パッチ

動画生成のための拡散Transformer拡張

元のサイズで学習する利点

サンプリングの柔軟性

フレーミングと構図の改善

言語理解とキャプション処理

画像と動画を入力に使う生成・編集

DALL·E画像のアニメーション化

生成動画の拡張

動画から動画への編集と接続

画像生成能力

スケール拡大で現れたシミュレーション能力

3D一貫性

長期一貫性とオブジェクトの持続性

世界との相互作用

デジタル世界のシミュレーション

現在の限界と結論

関連記事

1件のコメント

Hacker Newsのコメント