VideoLDM - Latent Diffusion Modelを用いた高解像度Text-to-Video合成

xguru · 2023-04-22T10:18:01+09:00

LDMは圧縮された低次元のLatent空間でDiffusion Modelを学習することで、多くの計算リソースなしでも高解像度の画像合成が可能このLDMを高解像度ビデオに適用したNVIDIAの論文 LDMを画像専用として事前学習し、Temporal Dimensionを導入して、エンコードされた画像シーケンスを微調整することで画像生成器をビデオ生成器へ変換拡散モデルのアップサンプラーをアラインして、時間的一貫性のある超高解像度ビデオモデルへ変換

(research.nvidia.com)

7 ポイント投稿者 xguru 2023-04-22 | まだコメントはありません。 | WhatsAppで共有

LDMは圧縮された低次元のLatent空間でDiffusion Modelを学習することで、多くの計算リソースなしでも高解像度の画像合成が可能
このLDMを高解像度ビデオに適用したNVIDIAの論文
LDMを画像専用として事前学習し、Temporal Dimensionを導入して、エンコードされた画像シーケンスを微調整することで画像生成器をビデオ生成器へ変換
拡散モデルのアップサンプラーをアラインして、時間的一貫性のある超高解像度ビデオモデルへ変換

VideoLDM - Latent Diffusion Modelを用いた高解像度Text-to-Video合成

関連記事

まだコメントはありません。