Stable Diffusion 2.0 公開

xguru · 2022-11-24T12:35:40+09:00

SD v1 はオープンソース AI モデルの勢力図を塗り替えた SD v2 は新しいテキストエンコーダである OpenCLIP で text-to-image モデルを学習し、v1 より画像品質を大幅に向上 512x512、768x768 の画像生成が可能 LAION-5B データセットの aesthetic なサブセットを用いて学習（あわせて NSFW フィルターで成人向けコンテンツを除外） Upscaler Diffusion モデルを内蔵し、画像解像度を 4 倍向上 128x128 画像を 512x512 にアップスケール可能ということつまり、SD v2 は 2048x2048 解像度以上の画像生成が可能になった Depth-to-Image Diffusion モデル : depth2img 従来の image-to-image 機能を新たな可能性へ拡張入力画像の深度を推定した後、テキストと深度情報の両方を使って新しい画像を生成つまり、画像の深さに応じて特定部分だけを異なる形で生成可能 Inpainting Diffusion Model を改善 SD v1 と同様に、シングル GPU 環境でも実行できるよう最適化

(stability.ai)

14 ポイント投稿者 xguru 2022-11-24 | 1件のコメント | WhatsAppで共有

SD v1 はオープンソース AI モデルの勢力図を塗り替えた
SD v2 は新しいテキストエンコーダである OpenCLIP で text-to-image モデルを学習し、v1 より画像品質を大幅に向上
512x512、768x768 の画像生成が可能
LAION-5B データセットの aesthetic なサブセットを用いて学習（あわせて NSFW フィルターで成人向けコンテンツを除外）
Upscaler Diffusion モデルを内蔵し、画像解像度を 4 倍向上
- 128x128 画像を 512x512 にアップスケール可能ということ
- つまり、SD v2 は 2048x2048 解像度以上の画像生成が可能になった
Depth-to-Image Diffusion モデル : depth2img
- 従来の image-to-image 機能を新たな可能性へ拡張
- 入力画像の深度を推定した後、テキストと深度情報の両方を使って新しい画像を生成
- つまり、画像の深さに応じて特定部分だけを異なる形で生成可能
Inpainting Diffusion Model を改善
SD v1 と同様に、シングル GPU 環境でも実行できるよう最適化

1件のコメント

laeyoung 2022-11-25

こちらでも SD v1 にアップスケーラーを付けて提供していますが（512 x 512で生成し、ユーザーが望めば縦横それぞれ4倍にupscale）、SD v1で大きいサイズを作るより、その組み合わせのほうがより速くて良かったです。

Stable Diffusion 2.0 公開

関連記事

1件のコメント