DALL·E:テキストから画像を生成する
(openai.com)-
120億パラメータ版のGPT-3
-
テキストと画像のペアからなるデータセットを用い、テキストによる説明から画像を生成するように学習させたもの
-
動物や物体を擬人化したバージョンを作ったり、無関係な概念をもっともらしく組み合わせたり、テキストのレンダリングや既存画像への変形を加えたりするなど、多様な機能を示す
→ 属性の制御:形状、色、材質、出現回数など
→ 複数のオブジェクトを同時に描画し、関係性を表現
→ 遠近感の表現と3次元の可視化
→ 内部・外部構造の表現:クルミの内部、脳サンゴなど
→ 状況ごとの詳細を推論:場面に合った影の表示のように、スタイル・設定・時間を変えて表現
→ ファッションおよびインテリアデザイン
→ まったく無関係な概念を組み合わせる:ハープでできたカタツムリ、アボカド型の椅子
→ Zero-shot visual reasoning
→ 地理・時間情報に基づく画像生成
- DALL·E はテキスト256トークン、画像1024トークンを単一ストリームとして受け取り、自己回帰方式でモデリングするシンプルなDecoder-only Transformer
1件のコメント
うわ、これはすごいですね。日常生活に取り入れられる日が楽しみです。