9 ポイント 投稿者 xguru 2022-10-07 | 1件のコメント | WhatsAppで共有
  • Video Diffusion Modelにテキストを入力して動画を作成する「Text-conditional Video Generation System」
  • テキストから低解像度の動画(24x48ピクセル、16フレーム、3fps)を生成し、7つの拡散モデルをカスケードしてアップスケールするのが特徴
  • 最終出力は1280x768、24fps。5.3秒の動画を生成可能
  • 論文: Imagen Video : High Definition Video Generation with Diffusion Models