11 ポイント 投稿者 xguru 2023-04-13 | 1件のコメント | WhatsAppで共有
  • Diffusionモデルは画像、音声、動画生成に革新をもたらした
    • しかし、反復的な生成プロセスを経る必要があるため速度が遅く、リアルタイムへの適用は難しい
  • ConsistencyモデルはAdversarial Trainingなしで、わずか1〜2ステップだけで優れた品質の生成が可能
    • このモデルも複数回サンプリングすれば、さらに品質が向上する
    • ゼロショットのデータ編集、画像インペインティング、カラー化、Super-Resolutionなども特別な訓練なしでサポート
    • 事前学習済みのDiffusion Modelを蒸留する方式、または独立した生成モデルとして学習可能

1件のコメント

 
xguru 2023-04-13

論文は以前に先に公開されています: Consistency Models https://arxiv.org/abs/2303.01469

Diffusionモデルの最初の論文では1000ステップを経て生成していましたが、現在は発展を重ねて50ステップ以下まで下がっています。
これを1〜4ステップまで減らしたDistilled StableDiffusion2の話も昨年末に出ていましたが、まだ論文は公開されていません。
https://twitter.com/EMostaque/status/1598131202044866560