10 ポイント 投稿者 xguru 2021-01-07 | 1件のコメント | WhatsAppで共有
  • 120億パラメータ版のGPT-3

  • テキストと画像のペアからなるデータセットを用い、テキストによる説明から画像を生成するように学習させたもの

  • 動物や物体を擬人化したバージョンを作ったり、無関係な概念をもっともらしく組み合わせたり、テキストのレンダリングや既存画像への変形を加えたりするなど、多様な機能を示す

→ 属性の制御:形状、色、材質、出現回数など

→ 複数のオブジェクトを同時に描画し、関係性を表現

→ 遠近感の表現と3次元の可視化

→ 内部・外部構造の表現:クルミの内部、脳サンゴなど

→ 状況ごとの詳細を推論:場面に合った影の表示のように、スタイル・設定・時間を変えて表現

→ ファッションおよびインテリアデザイン

→ まったく無関係な概念を組み合わせる:ハープでできたカタツムリ、アボカド型の椅子

→ Zero-shot visual reasoning

→ 地理・時間情報に基づく画像生成

  • DALL·E はテキスト256トークン、画像1024トークンを単一ストリームとして受け取り、自己回帰方式でモデリングするシンプルなDecoder-only Transformer

1件のコメント

 
heycalmdown 2021-01-08

うわ、これはすごいですね。日常生活に取り入れられる日が楽しみです。