VideoLDM - Latent Diffusion Modelを用いた高解像度Text-to-Video合成
(research.nvidia.com)- LDMは圧縮された低次元のLatent空間でDiffusion Modelを学習することで、多くの計算リソースなしでも高解像度の画像合成が可能
- このLDMを高解像度ビデオに適用したNVIDIAの論文
- LDMを画像専用として事前学習し、Temporal Dimensionを導入して、エンコードされた画像シーケンスを微調整することで画像生成器をビデオ生成器へ変換
- 拡散モデルのアップサンプラーをアラインして、時間的一貫性のある超高解像度ビデオモデルへ変換
まだコメントはありません。