11 ポイント 投稿者 xguru 2022-08-16 | 1件のコメント | WhatsAppで共有
  • Latent DiffusionモデルをLAION-5Bデータベースの512x512画像で学習
  • GoogleのImagenと同様にCLIP ViT-L/14テキストエンコーダを使用
  • 軽量で、10GB以上のVRAMを搭載したGPU 1台でも動作
  • Stability AIとLAIONの研究者が協業・支援

1件のコメント

 
xguru 2022-08-16

現代美術イラストのような分野では、DALL-E 2 や MidJourney よりも結果が良いそうです。
開発者 Discord での話によると、M1 Mac でも動作するとのことです。
ひとまずハードウェアの制約が少ないため、誰でも簡単に使えることが大きな強みになりそうです。
もちろんオープンソースではありますが、まだ現時点では学術用途でのみ利用可能です。

DALL-E のような AI 画像生成器を自分で運用する
Imagen - Google の text-to-image diffusion model
LAION-400M - 4億件の画像・テキスト対データセット