DeepFloyd IF - オープンソースのText-to-Imageモデル

xguru · 2023-04-30T10:03:02+09:00

Stability AI の新しい画像モデル既存モデルと比べて言語理解度が高く、フォトリアルな画像を生成 T5 Transformer ベースの Frozen テキストエンコーダと3段階のピクセル拡散モジュールを組み合わせ 64x64, 256x256, 1024x1024px Zero-shot FID スコアは 6.66（COCO データセット）

(github.com/deep-floyd)

14 ポイント投稿者 xguru 2023-04-30 | まだコメントはありません。 | WhatsAppで共有

Stability AI の新しい画像モデル
既存モデルと比べて言語理解度が高く、フォトリアルな画像を生成
T5 Transformer ベースの Frozen テキストエンコーダと3段階のピクセル拡散モジュールを組み合わせ
- 64x64, 256x256, 1024x1024px
Zero-shot FID スコアは 6.66（COCO データセット）

DeepFloyd IF - オープンソースのText-to-Imageモデル

関連記事

まだコメントはありません。