SnapFusion - モバイル機器で2秒で生成可能なText-to-Image拡散モデル
(snap-research.github.io)- 効率的なネットワークアーキテクチャと段階的なdistillationの改善によって達成
- 元のモデルの冗長性を把握し、データ蒸留を通じて画像デコーダの計算を削減した効率的なUNetを提示
- MS-COCOでの実験結果では、ノイズ除去ステップが8段階しかないSnapFusionモデルが、50段階のStable Diffusion v1.5よりも優れたFIDおよびCLIPスコアを達成
1件のコメント
Snapchatが公開した論文ですが、まだコードが公開されていないので……本当に可能なのか? と言い争うコメントがあるようですね
https://news.ycombinator.com/item?id=36304716
ひとまずデモ動画は機内モードで動かしています