- SD v1 はオープンソース AI モデルの勢力図を塗り替えた
- SD v2 は新しいテキストエンコーダである OpenCLIP で text-to-image モデルを学習し、v1 より画像品質を大幅に向上
- 512x512、768x768 の画像生成が可能
- LAION-5B データセットの aesthetic なサブセットを用いて学習(あわせて NSFW フィルターで成人向けコンテンツを除外)
- Upscaler Diffusion モデルを内蔵し、画像解像度を 4 倍向上
- 128x128 画像を 512x512 にアップスケール可能ということ
- つまり、SD v2 は 2048x2048 解像度以上の画像生成が可能になった
- Depth-to-Image Diffusion モデル : depth2img
- 従来の image-to-image 機能を新たな可能性へ拡張
- 入力画像の深度を推定した後、テキストと深度情報の両方を使って新しい画像を生成
- つまり、画像の深さに応じて特定部分だけを異なる形で生成可能
- Inpainting Diffusion Model を改善
- SD v1 と同様に、シングル GPU 環境でも実行できるよう最適化
1件のコメント
こちらでも SD v1 にアップスケーラーを付けて提供していますが(512 x 512で生成し、ユーザーが望めば縦横それぞれ4倍にupscale)、SD v1で大きいサイズを作るより、その組み合わせのほうがより速くて良かったです。