DALL·E：テキストから画像を生成する

(openai.com)

10 ポイント投稿者 xguru 2021-01-07 | 1件のコメント | WhatsAppで共有

120億パラメータ版のGPT-3
テキストと画像のペアからなるデータセットを用い、テキストによる説明から画像を生成するように学習させたもの
動物や物体を擬人化したバージョンを作ったり、無関係な概念をもっともらしく組み合わせたり、テキストのレンダリングや既存画像への変形を加えたりするなど、多様な機能を示す

→ 属性の制御：形状、色、材質、出現回数など

→ 複数のオブジェクトを同時に描画し、関係性を表現

→ 遠近感の表現と3次元の可視化

→ 内部・外部構造の表現：クルミの内部、脳サンゴなど

→ 状況ごとの詳細を推論：場面に合った影の表示のように、スタイル・設定・時間を変えて表現

→ ファッションおよびインテリアデザイン

→ まったく無関係な概念を組み合わせる：ハープでできたカタツムリ、アボカド型の椅子

→ Zero-shot visual reasoning

→ 地理・時間情報に基づく画像生成

DALL·E はテキスト256トークン、画像1024トークンを単一ストリームとして受け取り、自己回帰方式でモデリングするシンプルなDecoder-only Transformer

1件のコメント

heycalmdown 2021-01-08

うわ、これはすごいですね。日常生活に取り入れられる日が楽しみです。