生成的画像ダイナミクス

(generative-dynamics.github.io)

2 ポイント投稿者 GN⁺ 2023-09-18 | 1件のコメント | WhatsAppで共有

単一の静止画像に、シーンの動きに関する画像空間の事前分布を適用し、ループ映像やインタラクティブな動的シーンへ変換するアプローチ
学習には、木、花、ろうそく、風に揺れる服のような自然に振動する動きを含む実際の映像シーケンスの軌跡が使われる
モデルはFourierドメインで長期的な動きを扱い、単一画像入力から周波数調整拡散サンプリングによってスペクトルボリュームを予測する
予測されたスペクトルボリュームは、映像全体のモーションテクスチャへ変換され、ループ映像生成や実写写真内のオブジェクト相互作用に活用される
デモにはWebGL2対応ブラウザが必要で、高速化のため論文の高品質レンダリングモデルの代わりにメッシュワーピング(mesh-warping)を使用する

静止画像から動的シーンを作る

Generative Image Dynamicsは、シーンの動きに関する画像空間の事前分布をモデリングする手法
入力は単一の静止画像で、出力は滑らかにループする映像、またはユーザーが操作できる動的シーン
論文、arXiv、補足資料を参照できる
この研究はCVPR 2024 Best Paper Awardを受賞

動きの事前分布とレンダリング方式

学習データは、実際の映像シーケンスから抽出した動きの軌跡の集合
- 木、花、ろうそく、風に揺れる服のような自然で振動的な動きが例として使われる
モデルは、密で長期的な動きの事前分布をFourierドメインでモデリングする
- 単一画像が与えられると、周波数調整拡散サンプリングによってスペクトルボリュームを予測する
- スペクトルボリュームは、映像全体にわたるモーションテクスチャへ変換できる
画像ベースレンダリングモジュールと組み合わせることで、さまざまな応用が可能
- 静止画像を滑らかにループする映像へ変換する
- スペクトルボリュームを画像空間のモーダルベースとして解釈し、実写写真内のオブジェクトを現実的に相互作用させられる
- ユーザー刺激に対するオブジェクト動力学の応答は、Davisらのモーダル解析を使ってシミュレーションする

デモと追加活用

デモでは、画像上の一点をクリックしてドラッグし、離すとシーンがどのように動くかを示す
- ブラウザはWebGL2をサポートしている必要がある
- 高速化のため、論文で示された高品質レンダリングモデルの代わりにメッシュワーピングを使用する
動きテクスチャの振幅を調整して、アニメーションの動きを弱めたり強めたりできる
予測されたモーションテクスチャを補間すると、スローモーション映像を生成できる
関連する先行研究として、Animating Pictures with Stochastic Motion Textures、Image-space Modal Bases for Plausible Manipulation of Objects in Video、Visual Vibration Analysisがある

1件のコメント

GN⁺ 2023-09-18

Hacker Newsのコメント

本当に素晴らしい。シネマグラフは昔から好きで、マーケティングでも撮影でも、作業の中に微妙な静止感のようなものを入れようとしてきたので、これはよく使うツールになりそう
10点満点のシネマグラフのコツは、微妙であればあるほどインパクトが大きいということ。見る人が最初は静止写真だと思っていて、脳が後から「待てよ、何かおかしい。写真じゃなくて動画だ」と気づくようにするのがいい
木は端のほうをドラッグすると歪みが激しい。それでも興味深いアイデアではある
- おそらく、これをセグメンテーションと背景レイヤー用の生成塗りつぶしと組み合わせる必要がありそう。幸い、その方面もかなり進歩している
1枚目の写真の赤いバラでは背景の花も動いているのに、3枚目の写真の木では同じ効果が見えないのはなぜなのか気になる
1枚目と2枚目の写真で動きの量が違うのも印象的で、ポインタ周辺の密度を考慮しているのかもしれない。ゆっくりした動きの例は、見ていると本当に落ち着く
- 理由はわからないけれど、バラの例は少し怖く感じた
Googleの研究者たちが引き続き公開論文とデモを一緒に出しているのは良いことだ。GoogleがAI研究を製品化したりオープンソースとして公開したりするのに失敗している、という話はあえて繰り返さない
本当に素晴らしい。世界を揺るがしたり生産性を高めたりするものではないが、それでもとてもクールだ
デスクトップやスマートフォンの壁紙の標準機能になり得ると思う。水や雲のなめらかな動きも扱えるなら、歴史ドキュメンタリーのような場面で写真に選択的に適用するのにもよさそう
デモにWebGLを使っているね。いい感じ
- ビデオゲームに入ったらすごそう。茂みの間を歩くと、植物が体に引っ張られるようなことができるから
これはEbSynthと同じく、小さなベクトルの動きが必要という制約がある
- ここでの成果は主に画像のダイナミクス生成にあるように思う。たとえば画像に猫が写っていれば、モデルが猫は呼吸するものだと理解して、肺が収縮する動きを作り、論文ではその画像ダイナミクスと元画像をなめらかな動画に変換する方法を扱っているようだ。間違っているかもしれない
静止写真がHarry Potter式の額縁写真になるまで、あと一歩という感じだ
うわ、超現実的に見える。Photoshopに統合されたら早く使ってみたい

生成的画像ダイナミクス

静止画像から動的シーンを作る

動きの事前分布とレンダリング方式

デモと追加活用

関連記事

1件のコメント

Hacker Newsのコメント