14 ポイント 投稿者 xguru 2022-11-24 | 1件のコメント | WhatsAppで共有
  • SD v1 はオープンソース AI モデルの勢力図を塗り替えた
  • SD v2 は新しいテキストエンコーダである OpenCLIP で text-to-image モデルを学習し、v1 より画像品質を大幅に向上
  • 512x512、768x768 の画像生成が可能
  • LAION-5B データセットの aesthetic なサブセットを用いて学習(あわせて NSFW フィルターで成人向けコンテンツを除外)
  • Upscaler Diffusion モデルを内蔵し、画像解像度を 4 倍向上
    • 128x128 画像を 512x512 にアップスケール可能ということ
    • つまり、SD v2 は 2048x2048 解像度以上の画像生成が可能になった
  • Depth-to-Image Diffusion モデル : depth2img
    • 従来の image-to-image 機能を新たな可能性へ拡張
    • 入力画像の深度を推定した後、テキストと深度情報の両方を使って新しい画像を生成
    • つまり、画像の深さに応じて特定部分だけを異なる形で生成可能
  • Inpainting Diffusion Model を改善
  • SD v1 と同様に、シングル GPU 環境でも実行できるよう最適化

1件のコメント

 
laeyoung 2022-11-25

こちらでも SD v1 にアップスケーラーを付けて提供していますが(512 x 512で生成し、ユーザーが望めば縦横それぞれ4倍にupscale)、SD v1で大きいサイズを作るより、その組み合わせのほうがより速くて良かったです。