SnapFusion - モバイル機器で2秒で生成可能なText-to-Image拡散モデル

xguru · 2023-06-14T11:17:02+09:00

効率的なネットワークアーキテクチャと段階的なdistillationの改善によって達成元のモデルの冗長性を把握し、データ蒸留を通じて画像デコーダの計算を削減した効率的なUNetを提示 MS-COCOでの実験結果では、ノイズ除去ステップが8段階しかないSnapFusionモデルが、50段階のStable Diffusion v1.5よりも優れたFIDおよびCLIPスコアを達成

(snap-research.github.io)

9 ポイント投稿者 xguru 2023-06-14 | 1件のコメント | WhatsAppで共有

効率的なネットワークアーキテクチャと段階的なdistillationの改善によって達成
元のモデルの冗長性を把握し、データ蒸留を通じて画像デコーダの計算を削減した効率的なUNetを提示
MS-COCOでの実験結果では、ノイズ除去ステップが8段階しかないSnapFusionモデルが、50段階のStable Diffusion v1.5よりも優れたFIDおよびCLIPスコアを達成

1件のコメント

xguru 2023-06-14

Snapchatが公開した論文ですが、まだコードが公開されていないので……本当に可能なのか？と言い争うコメントがあるようですね
https://news.ycombinator.com/item?id=36304716
ひとまずデモ動画は機内モードで動かしています

SnapFusion - モバイル機器で2秒で生成可能なText-to-Image拡散モデル

関連記事

1件のコメント