SANA-WM、1分・720p動画向けの26億パラメータのオープンソース世界モデル

(nvlabs.github.io)

1 ポイント投稿者 GN⁺ 1 시간 전 | 1件のコメント | WhatsAppで共有

NVIDIAのSANA-WMは、画像1枚と6-DoFカメラ軌道を入力として受け取り、単一GPUで720p・1分長の制御可能な動画を生成する
Hybrid Linear Diffusion Transformerがフレーム単位のGated DeltaNetと周期的softmaxを組み合わせ、長いロールアウトの一貫性を維持する
学習にはH100を64基で15日を要し、蒸留版はRTX 5090 1基でNVFP4により60秒・720pクリップを34秒でデノイズする
公開動画約21.3万本とメートル単位の6-DoFポーズ監督を用い、精密なカメラ経路追従をサポートする
1分世界モデルベンチマークで既存のオープンソース基準モデルよりアクション追従精度が高く、同程度の視覚品質で36倍高いスループットを達成する

モデルと公開資料

SANA-WMは26億パラメータのオープンソース世界モデルで、1枚の画像とカメラ軌道を入力として受け取り、720p・1分長の制御可能な動画を生成する
NVIDIA所属のHaoyi Zhu、Haozhe Liu、Yuyang Zhao、Tian Ye、Junsong Chen、Jincheng Yu、Tong He、Song Han、Enze Xieが参加している
Paper、Code、Models soon が提供されている
論文タイトルはSANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

中核設計と生成パイプライン

長いロールアウトのためのハイブリッド構造
- Hybrid Linear Diffusion Transformerはフレーム単位のGated DeltaNetと周期的softmaxを組み合わせ、分単位のロールアウトで世界の一貫性を維持する
- 効率比較では、recurrent変種はメモリと遅延の面でより小さくスケールする一方、all-softmax方式は60秒生成でOOMが発生する
精密なカメラ制御
- SANA-WMは6-DoFカメラ軌道を入力として受け取り、メトリックなカメラ経路に従う映像を生成する
- 粗いグローバルポーズ分岐と細かなピクセル整列幾何分岐が連携し、カメラ経路追従の忠実度を高める
- 公開動画からメートル単位で正確な6-DoFカメラポーズを抽出し、時空間的に一貫した高品質なアクションラベルを作成する
2段階の品質向上
- 第1段階の出力には17Bの長尺動画refinerが適用され、シーケンス全体の品質と一貫性が改善される
- refinerは長いロールアウト用バックボーン上で、テクスチャ、動き、後半区間の品質をより鮮明にする

学習と推論の効率

学習にはH100を64基で15日を要し、学習データには公開動画クリップ約21.3万本とメートル単位のポーズ監督が使われた
推論では単一のH100で1分・720p映像の生成が可能
蒸留版モデルはRTX 5090を1基でNVFP4量子化を使用し、60秒・720pクリップを34秒でデノイズする
SANA-WMはLingBot-World、HY-WorldPlayのような大規模な産業ベースラインと同程度の視覚品質を示しつつ、効率を改善する
1分世界モデルベンチマークで既存のオープンソース基準モデルより高いアクション追従精度を示し、同程度の視覚品質で36倍高いスループットを達成した

デモで見られる生成特性

1分世界デモ
- 複数の1分サンプルは、一人称視点の固定観察点を維持しながら、カメラ移動や観察者の行動なしに環境そのものの動きを生成する
- Video 68: 雪に覆われたアルプスの道、崖、洞窟の入口、つらら、風でしなる松、オレンジ色のジャケットを着た登山者が配置され、雪粒子・霧・枝の揺れ・粉雪の流れが生成される
- Video 72: 開けた交差点で、青い森、嵐雲の下の廃墟の塔、陽光の村へ分かれる三叉路が生成される
- Video 81: 閉鎖された地下SF研究施設のT字交差路と、水に沈んだ左側の廊下、蒸気で満たされた右側の廊下、闇へ開く円形の金属扉が現れる
20秒世界デモ
- Video 82: 山中の放棄された小屋の内部、手描きの地図、錆びた鍵、暖かなランタン、雪の森道の向こうにある黄金の洞窟で構成され、火種の煙・ランタンの炎・戸の隙間の吹雪が動く
- Video 85: ジャングル遺跡の封印された円形扉、緑色の記号、小型探査ロボットが配置され、つる植物・昆虫・蝶・水たまり・扉の記号が脈動する
- Video 92: 水中の古代神殿の石造通路、サンゴの柱、緑色に光る亀裂、小型球形潜水ロボットが配置され、魚・泡・粒子・海藻・causticsが加わる
同じ最初のフレームと反復プロンプト
- Video 100、Video 101、Video 102: 同じ塩湖平原プロンプトでスポーツカー、粗い塩殻、低い日差しを保ちながら、塩の粉塵、雲の移動、陽炎、地表の風の筋を生成する
- Video 103、Video 104、Video 105: 浅い反射水面、泥の飛び石、紫色の森、半ば沈んだ墜落宇宙船、宇宙服を着たastronaut、小さな異星生物が同じプロンプトの変形として現れる
- Video 119、Video 120、Video 121: 熱帯の海辺の日の出シーンで、波、ヤシの葉、鳥、雲の動きを固定視点で生成する

Refiner効果の例

ジャングル峡谷
- Video 124 と Video 125 はStage 1 Refinedの例で、巨大なジャングル峡谷の内部を一人称の固定視点で構成する
- 滝の向こうにかすかに見える古代の石造神殿、折られた紙飛行機、色とりどりの鳥、漂う葉、濡れた石壁、絡み合うつる、水滴が含まれる
- 滝、霧、鳥の羽ばたき、落ち葉、きらめく水滴、気流に震える紙飛行機が自律的に動く
崖に刻まれた古代の門
- Video 126 と Video 127 は、森の高台にある崖の中の古代の門を示す
- 苔むした道から半開きの門まで石段が続き、彫刻柱、守護像、ツタに覆われた壁、左側の山岳谷、入口近くのマント姿の旅人が配置される
- 遅い午後の暖かな日差しと、門から漏れる青緑色の光が組み合わさり、葉、鳥、つる、ポータルの光が独立して動く
水に沈んだ古代神殿
- Video 130 と Video 131 はStage 1およびrefined結果を並べて提示する
- サンゴの付いた柱の間を石造の歩道が続き、割れた儀式用の壁の中央の亀裂から明るい緑の光が漏れ、床の発光記号と整列する
- 小型球形潜水ロボットが手前に浮かび、魚、気泡、粒子、海藻、caustics、緑色の記号が自律的に動く

デモ制作メモ

ページ内のすべての映像はSANA-WM双方向変種で生成された後、2段階の長尺動画refinerを通している
ギャラリー内のすべてのデモ動画の最初のフレーム画像はOpenAI GPT Image 2とGoogle Nano Banana Proで生成され、SANA-WMが静止画像を1分長の動画へとアニメーション化する

1件のコメント

GN⁺ 1 시간 전

Hacker News のコメント

ビデオゲームの観点から見ると、こうした ワールドモデル はあまりしっくりこない
自分はゲーム開発者ではないが、好きなゲームには深い意図性がある。たとえば FromSoftware のゲームや最近の Lies of P では、たいてい物ひとつとっても無造作には置かれておらず、ほぼすべてのオブジェクトが意図的に配置されている
こうした意図性のないゲームは対照的に死んだように感じられ、没入感を壊したり、開発者が届けようとしている体験からプレイヤーを引き離したりする
ワールドモデルがこうした意図性を捉えられるレベルに到達できるのか、想像しにくい。最上位の LLM ですら文章作成でしばしば失敗するし、コードでも同様で、それらの媒体における体験の表層はビデオゲームのユーザーインタラクションの幅より小さく見える
人が意図的な体験を作りたいときに、こうしたワールドモデルをどうモジュール的に使えるのかも不明だ。LLM はテキストを生成し、人が直し、別の LLM が引き継ぐといった形である程度モジュール化されているが、ここでのビデオ出力が同じなのかは分からない
結局のところ、ワールドモデル自体は印象的だが、文章生成向け LLM のように、私たちが何を目指して作っているのかがはっきりしない。より満足度が低く、より人間味のない体験をより速く作れるようになるのか、それともロボットシステムが世界を作って行動の結果を想像しながらシミュレーションすることが最大の直接的な利点なのか分からない
全体として、私たちが体験するあらゆるものの背後にある 意図性 が薄れていく世界に突進している感じがして、すべてがより非人間的で、よりノイジーになっていくように思える
- ここには二つの話がある。第一に、AI がなくても、精巧に設計された環境と 手続き型生成 の環境はどちらも可能で、両方ともうまく作れる。逆に、どちらもその方式特有の理由で失敗しうる
  雑な手続き型生成は多様性に欠けたり、筋の通らない結果を生んだりするし、雑な手動配置はゲームが定めたルールを破って一貫性のない体験を作ってしまうことがある
  明示的な配置で内部一貫性を保つのは、スケールが大きくなるほど難しくなる。内部一貫性が品質に影響する要素なら、ある規模を超えた時点で生成コンテンツのほうが、むしろ高品質な解決策になる可能性がある
  第二に、AI でコンテンツを作る場合でも、同じ「雑さ」のルールが当てはまる。欲しいものを構成する選択肢がほとんどない生成 AI ツールもあるが、それは AI の本質的性質ではない。人々が単純なインターフェースを望むからそうなっている場合もあるし、生成器がまだ新しく、細かな制御よりもまず何かをできるようにすることに注力しているため、制御手段が限られている場合もある
  ある意味では、まだ新しすぎて、どんな制御可能性が望ましいのか説明しにくい段階にある。まず生成器を作って、人々が何をしたいのかを見てから、望まれる制御機能を作るのは合理的な道筋だと思う。生成物のスタイル、オブジェクト配置、カメラの動き、シーン構成を高いレベルで制御するツールもあるが、それに触れている人はずっと少ない
  AI は、なければ作れなかったものを可能にしてくれるかもしれないが、特別なものを作るにはやはり細心さが必要だ
- その通り。見た目はもっともらしいが中身のないコンテンツ で世界をあふれさせることになる。望むテーマを貼り付けることもできる
  目利きの弱い人は文句を言わないだろうが、それ以外の人は物量に押し流され、100 個のうち 99 個がノイズという状態で、1 個を見つけるためにますます多くの時間を使うことになる
  Amazon ともかなり似ている。壊れた並び順、操作された単価表示、安価なコピー商品の洪水が組み合わさって、ユーザーは諦めて上位に出てくる商品、つまりおすすめ一覧や Amazon 製の模倣品を買うようになる
  いろいろな商品を Web 検索して画像タブに行くと、結果の 50〜90% を Amazon 商品リンクが占めていることも多い
- こういうモデルは昔の グーテンベルク印刷機 に近いものになる気がする。コンテンツ量は急増し、その大半はあまり良くないだろう
  しかし圧倒的な量のおかげで、全体としては高品質なコンテンツもより多く作られるかもしれない。言い換えれば、平均的なゲーム品質は下がるだろうが、実際に「素晴らしい」ゲームが生まれる速度は上がるはずだ
- いま AI 全般で起きていることの本質を突いている気がする。グラフィックス、画像、動画、音楽、テキスト、コードのどれも、見た目はすごくても 空虚で価値がない ように感じられる
  人生のどんな作業でも、結果の質は、その背後に注がれた注意と意図の直接的な反映だ。単純化すれば、どれだけ手間をかけたかの反映であり、それは必ず表に出る。AI の時代でも同じだ
  ただし、努力なしに結果へ到達するまでの道のりがずっと短くなったせいで、量が増え、全体の印象が薄まっている。こうした安っぽい成果物は、触れるあらゆる分野を安物っぽくしてしまうため、目立つにはむしろ今まで以上の努力が必要になるだろう
- FromSoftware や Lies of P のように、あらゆる物が意図的に配置されている例は、かなり限定的で偏った例示だ
  精巧なアイテム配置に頼らない優れたゲームも多い。たとえば Bethesda の多くのゲームは、ほとんどの物が役に立たない装飾であることによって素晴らしかったのに、最近作でガラクタに目的を持たせてそのルールを壊したことで、ずっと悪くなった
  こうした意図性にまったく依存しない良いゲームも多く、文字どおり面白いアイデアをランダムに投げ込んでくっつけたものだったり、手続き型生成だったりする
モデル重みが「まもなく」出るというのは、現時点では ベイパーウェア を意味する。重みも公開されていないのに、どうして「オープンソース」と呼べるのか
2.8B モデルでこんな結果が出るという話に皆が懐疑的なのは当然だ。重みがなければ、起きたことにならない
- モデルはここにある: https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7...
- 公平に言えば、コードベース全体は オープンソース なので、たいていの open weights モデルよりはましだ。それでもその気持ちには同意する
  https://github.com/NVlabs/Sana
- だとしたら、明らかに open ではない。タイトルを変えられないものだろうか
2.6B だと言っているが、その次にこういう文がある
「専用の 17B 長尺動画リファイナ が長いロールアウトのバックボーン上で質感、動き、後半部分の品質を鮮明にする」
全部 ビデオゲーム のように見える。おそらく Unreal Engine で学習用の合成データを作ったのだろう
GPU でこれを動かしているのはかなり印象的だ。不満や懸念を表している人もいるが、まだ初期段階だし、今が一番悪い状態のはずなので、これが ゲームに与える影響 はとても楽しみだ
馬鹿げた質問かもしれないが、ここで生成されているもののどこが「ワールド」なのだろうか。実際の物理空間の抽象表現、たとえばゲームエンジンのシーングラフのようなものがあるのか。それとも単に「この動画生成器は他の動画生成器より物理的に一貫している」という意味なのか
- ワールドモデル とは、現在の状態と、任意でその世界に住むエージェントの行動が与えられたときに、シミュレーションされた世界の次の状態を予測するモデルのことだ。次の単語を予測する言語モデルとかなり似ている
  その世界状態は何でもありうるが、この 1〜2 年ではより狭い意味で使われるようになっている。ゲームのような操作に自然に反応し、まるでビデオゲームをシミュレートしているかのように見える動画生成モデルを指す。ただし、動画フレームの背後に追加の状態があるわけではない
- この文脈でのワールドとは、これらの動画がビデオゲームのように インタラクティブ であることを意味している。リンク先の例ではキーボードとマウス入力が見える
  モデルは約 1 分間シーンの一貫性を保つよう学習されているため、周囲を見回したあと画面外に出た物体も、再びその方向を見ると再登場する
ダウンロードはどこにあるのか。GitHub では見つからないし、Web ページのダウンロードボタンは無効になっている
それと、24GB メモリの RTX 4090 で動くだろうか?
- 5 秒版ならある: https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7...
- 下へスクロールすると動画がもっとあり、モデルは「まもなく」公開されそうに見える
警告: そのページの自動再生動画を見たら、ダウンロード速度が 350Mbps まで跳ね上がった
- タブでそのページを開きっぱなしにして 1 時間以上たってから気づいた。本当に同じ動画を延々とストリーミングして再ストリーミングしているのか? キャッシュするには量が多すぎて、無限に再送しているのだろうか
  従量課金や上限付きネットワークでそのページを開きっぱなしにする人がいないことを願う
  GitHub がそのページを止めていないのが驚きだ
  AI 研究者は計算資源やネットワーク資源を燃やすことに慣れすぎて、複数の HD 動画を自動再生・ループ再生する Web ページについて考えるのをやめてしまうのだろうか
- 自分の 70Mbps 回線 では動画をバッファリングすることすらできず、視聴を諦めた。そこまで高画質にも見えなかった
2.6B モデル が 1 分の動画をあの品質と一貫性で出力するというのは、信じられないほどすごいことに見える
最初の雪山で男が歩く動画には 洞窟入口の一貫性 の問題がある。このモデルサイズでは「想定内」なのだろうか
- たいていの動画にそういう問題が少しあるように見える。たとえば図書館の動画では、テーブル上の本の形が時々変わる
  例が代表的なものだとすれば、'Refiner' の効果はむしろ逆に働いているように見える。どのケースでも、1 段階目の画像のほうが「洗練後」の画像より良く見える。雑多さが少なく、より現実的で、その表現を知っている人向けに言えば「カウベル」が少ない感じだ
- どの動画も、以前に見せた領域へ向きを戻すと、かなり目立つ 一貫性の問題 を見せている

SANA-WM、1分・720p動画向けの26億パラメータのオープンソース世界モデル

モデルと公開資料

中核設計と生成パイプライン

長いロールアウトのためのハイブリッド構造

精密なカメラ制御

2段階の品質向上

学習と推論の効率

デモで見られる生成特性

1分世界デモ

20秒世界デモ

同じ最初のフレームと反復プロンプト

Refiner効果の例

ジャングル峡谷

崖に刻まれた古代の門

水に沈んだ古代神殿

デモ制作メモ

関連記事

1件のコメント

Hacker News のコメント