SANA-WM、1分・720p動画向けの26億パラメータのオープンソース世界モデル
(nvlabs.github.io)- NVIDIAのSANA-WMは、画像1枚と6-DoFカメラ軌道を入力として受け取り、単一GPUで720p・1分長の制御可能な動画を生成する
- Hybrid Linear Diffusion Transformerがフレーム単位のGated DeltaNetと周期的softmaxを組み合わせ、長いロールアウトの一貫性を維持する
- 学習にはH100を64基で15日を要し、蒸留版はRTX 5090 1基でNVFP4により60秒・720pクリップを34秒でデノイズする
- 公開動画約21.3万本とメートル単位の6-DoFポーズ監督を用い、精密なカメラ経路追従をサポートする
- 1分世界モデルベンチマークで既存のオープンソース基準モデルよりアクション追従精度が高く、同程度の視覚品質で36倍高いスループットを達成する
モデルと公開資料
- SANA-WMは26億パラメータのオープンソース世界モデルで、1枚の画像とカメラ軌道を入力として受け取り、720p・1分長の制御可能な動画を生成する
- NVIDIA所属のHaoyi Zhu、Haozhe Liu、Yuyang Zhao、Tian Ye、Junsong Chen、Jincheng Yu、Tong He、Song Han、Enze Xieが参加している
- Paper、Code、Models soon が提供されている
- 論文タイトルは
SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
中核設計と生成パイプライン
-
長いロールアウトのためのハイブリッド構造
- Hybrid Linear Diffusion Transformerはフレーム単位のGated DeltaNetと周期的softmaxを組み合わせ、分単位のロールアウトで世界の一貫性を維持する
- 効率比較では、recurrent変種はメモリと遅延の面でより小さくスケールする一方、all-softmax方式は60秒生成でOOMが発生する
-
精密なカメラ制御
- SANA-WMは6-DoFカメラ軌道を入力として受け取り、メトリックなカメラ経路に従う映像を生成する
- 粗いグローバルポーズ分岐と細かなピクセル整列幾何分岐が連携し、カメラ経路追従の忠実度を高める
- 公開動画からメートル単位で正確な6-DoFカメラポーズを抽出し、時空間的に一貫した高品質なアクションラベルを作成する
-
2段階の品質向上
- 第1段階の出力には17Bの長尺動画refinerが適用され、シーケンス全体の品質と一貫性が改善される
- refinerは長いロールアウト用バックボーン上で、テクスチャ、動き、後半区間の品質をより鮮明にする
学習と推論の効率
- 学習にはH100を64基で15日を要し、学習データには公開動画クリップ約21.3万本とメートル単位のポーズ監督が使われた
- 推論では単一のH100で1分・720p映像の生成が可能
- 蒸留版モデルはRTX 5090を1基でNVFP4量子化を使用し、60秒・720pクリップを34秒でデノイズする
- SANA-WMはLingBot-World、HY-WorldPlayのような大規模な産業ベースラインと同程度の視覚品質を示しつつ、効率を改善する
- 1分世界モデルベンチマークで既存のオープンソース基準モデルより高いアクション追従精度を示し、同程度の視覚品質で36倍高いスループットを達成した
デモで見られる生成特性
-
1分世界デモ
-
20秒世界デモ
-
同じ最初のフレームと反復プロンプト
Refiner効果の例
-
ジャングル峡谷
-
崖に刻まれた古代の門
-
水に沈んだ古代神殿
デモ制作メモ
- ページ内のすべての映像はSANA-WM双方向変種で生成された後、2段階の長尺動画refinerを通している
- ギャラリー内のすべてのデモ動画の最初のフレーム画像はOpenAI GPT Image 2とGoogle Nano Banana Proで生成され、SANA-WMが静止画像を1分長の動画へとアニメーション化する
1件のコメント
Hacker News のコメント
ビデオゲームの観点から見ると、こうした ワールドモデル はあまりしっくりこない
自分はゲーム開発者ではないが、好きなゲームには深い意図性がある。たとえば FromSoftware のゲームや最近の Lies of P では、たいてい物ひとつとっても無造作には置かれておらず、ほぼすべてのオブジェクトが意図的に配置されている
こうした意図性のないゲームは対照的に死んだように感じられ、没入感を壊したり、開発者が届けようとしている体験からプレイヤーを引き離したりする
ワールドモデルがこうした意図性を捉えられるレベルに到達できるのか、想像しにくい。最上位の LLM ですら文章作成でしばしば失敗するし、コードでも同様で、それらの媒体における体験の表層はビデオゲームのユーザーインタラクションの幅より小さく見える
人が意図的な体験を作りたいときに、こうしたワールドモデルをどうモジュール的に使えるのかも不明だ。LLM はテキストを生成し、人が直し、別の LLM が引き継ぐといった形である程度モジュール化されているが、ここでのビデオ出力が同じなのかは分からない
結局のところ、ワールドモデル自体は印象的だが、文章生成向け LLM のように、私たちが何を目指して作っているのかがはっきりしない。より満足度が低く、より人間味のない体験をより速く作れるようになるのか、それともロボットシステムが世界を作って行動の結果を想像しながらシミュレーションすることが最大の直接的な利点なのか分からない
全体として、私たちが体験するあらゆるものの背後にある 意図性 が薄れていく世界に突進している感じがして、すべてがより非人間的で、よりノイジーになっていくように思える
雑な手続き型生成は多様性に欠けたり、筋の通らない結果を生んだりするし、雑な手動配置はゲームが定めたルールを破って一貫性のない体験を作ってしまうことがある
明示的な配置で内部一貫性を保つのは、スケールが大きくなるほど難しくなる。内部一貫性が品質に影響する要素なら、ある規模を超えた時点で生成コンテンツのほうが、むしろ高品質な解決策になる可能性がある
第二に、AI でコンテンツを作る場合でも、同じ「雑さ」のルールが当てはまる。欲しいものを構成する選択肢がほとんどない生成 AI ツールもあるが、それは AI の本質的性質ではない。人々が単純なインターフェースを望むからそうなっている場合もあるし、生成器がまだ新しく、細かな制御よりもまず何かをできるようにすることに注力しているため、制御手段が限られている場合もある
ある意味では、まだ新しすぎて、どんな制御可能性が望ましいのか説明しにくい段階にある。まず生成器を作って、人々が何をしたいのかを見てから、望まれる制御機能を作るのは合理的な道筋だと思う。生成物のスタイル、オブジェクト配置、カメラの動き、シーン構成を高いレベルで制御するツールもあるが、それに触れている人はずっと少ない
AI は、なければ作れなかったものを可能にしてくれるかもしれないが、特別なものを作るにはやはり細心さが必要だ
目利きの弱い人は文句を言わないだろうが、それ以外の人は物量に押し流され、100 個のうち 99 個がノイズという状態で、1 個を見つけるためにますます多くの時間を使うことになる
Amazon ともかなり似ている。壊れた並び順、操作された単価表示、安価なコピー商品の洪水が組み合わさって、ユーザーは諦めて上位に出てくる商品、つまりおすすめ一覧や Amazon 製の模倣品を買うようになる
いろいろな商品を Web 検索して画像タブに行くと、結果の 50〜90% を Amazon 商品リンクが占めていることも多い
しかし圧倒的な量のおかげで、全体としては高品質なコンテンツもより多く作られるかもしれない。言い換えれば、平均的なゲーム品質は下がるだろうが、実際に「素晴らしい」ゲームが生まれる速度は上がるはずだ
人生のどんな作業でも、結果の質は、その背後に注がれた注意と意図の直接的な反映だ。単純化すれば、どれだけ手間をかけたかの反映であり、それは必ず表に出る。AI の時代でも同じだ
ただし、努力なしに結果へ到達するまでの道のりがずっと短くなったせいで、量が増え、全体の印象が薄まっている。こうした安っぽい成果物は、触れるあらゆる分野を安物っぽくしてしまうため、目立つにはむしろ今まで以上の努力が必要になるだろう
精巧なアイテム配置に頼らない優れたゲームも多い。たとえば Bethesda の多くのゲームは、ほとんどの物が役に立たない装飾であることによって素晴らしかったのに、最近作でガラクタに目的を持たせてそのルールを壊したことで、ずっと悪くなった
こうした意図性にまったく依存しない良いゲームも多く、文字どおり面白いアイデアをランダムに投げ込んでくっつけたものだったり、手続き型生成だったりする
モデル重みが「まもなく」出るというのは、現時点では ベイパーウェア を意味する。重みも公開されていないのに、どうして「オープンソース」と呼べるのか
2.8B モデルでこんな結果が出るという話に皆が懐疑的なのは当然だ。重みがなければ、起きたことにならない
https://github.com/NVlabs/Sana
2.6B だと言っているが、その次にこういう文がある
「専用の 17B 長尺動画リファイナ が長いロールアウトのバックボーン上で質感、動き、後半部分の品質を鮮明にする」
全部 ビデオゲーム のように見える。おそらく Unreal Engine で学習用の合成データを作ったのだろう
GPU でこれを動かしているのはかなり印象的だ。不満や懸念を表している人もいるが、まだ初期段階だし、今が一番悪い状態のはずなので、これが ゲームに与える影響 はとても楽しみだ
馬鹿げた質問かもしれないが、ここで生成されているもののどこが「ワールド」なのだろうか。実際の物理空間の抽象表現、たとえばゲームエンジンのシーングラフのようなものがあるのか。それとも単に「この動画生成器は他の動画生成器より物理的に一貫している」という意味なのか
その世界状態は何でもありうるが、この 1〜2 年ではより狭い意味で使われるようになっている。ゲームのような操作に自然に反応し、まるでビデオゲームをシミュレートしているかのように見える動画生成モデルを指す。ただし、動画フレームの背後に追加の状態があるわけではない
モデルは約 1 分間シーンの一貫性を保つよう学習されているため、周囲を見回したあと画面外に出た物体も、再びその方向を見ると再登場する
ダウンロードはどこにあるのか。GitHub では見つからないし、Web ページのダウンロードボタンは無効になっている
それと、24GB メモリの RTX 4090 で動くだろうか?
警告: そのページの自動再生動画を見たら、ダウンロード速度が 350Mbps まで跳ね上がった
従量課金や上限付きネットワークでそのページを開きっぱなしにする人がいないことを願う
GitHub がそのページを止めていないのが驚きだ
AI 研究者は計算資源やネットワーク資源を燃やすことに慣れすぎて、複数の HD 動画を自動再生・ループ再生する Web ページについて考えるのをやめてしまうのだろうか
2.6B モデル が 1 分の動画をあの品質と一貫性で出力するというのは、信じられないほどすごいことに見える
最初の雪山で男が歩く動画には 洞窟入口の一貫性 の問題がある。このモデルサイズでは「想定内」なのだろうか
例が代表的なものだとすれば、'Refiner' の効果はむしろ逆に働いているように見える。どのケースでも、1 段階目の画像のほうが「洗練後」の画像より良く見える。雑多さが少なく、より現実的で、その表現を知っている人向けに言えば「カウベル」が少ない感じだ