Stable Diffusion - DALL-Eに似たText-To-Imageオープンソース

xguru · 2022-08-16T10:07:51+09:00

Latent DiffusionモデルをLAION-5Bデータベースの512x512画像で学習 GoogleのImagenと同様にCLIP ViT-L/14テキストエンコーダを使用軽量で、10GB以上のVRAMを搭載したGPU 1台でも動作 Stability AIとLAIONの研究者が協業・支援

(github.com/CompVis)

11 ポイント投稿者 xguru 2022-08-16 | 1件のコメント | WhatsAppで共有

Latent DiffusionモデルをLAION-5Bデータベースの512x512画像で学習
GoogleのImagenと同様にCLIP ViT-L/14テキストエンコーダを使用
軽量で、10GB以上のVRAMを搭載したGPU 1台でも動作
Stability AIとLAIONの研究者が協業・支援

1件のコメント

xguru 2022-08-16

現代美術イラストのような分野では、DALL-E 2 や MidJourney よりも結果が良いそうです。
開発者 Discord での話によると、M1 Mac でも動作するとのことです。
ひとまずハードウェアの制約が少ないため、誰でも簡単に使えることが大きな強みになりそうです。
もちろんオープンソースではありますが、まだ現時点では学術用途でのみ利用可能です。

DALL-E のような AI 画像生成器を自分で運用する
 Imagen - Google の text-to-image diffusion model
LAION-400M - 4億件の画像・テキスト対データセット

Stable Diffusion - DALL-Eに似たText-To-Imageオープンソース

関連記事

1件のコメント