11 ポイント 投稿者 xguru 2023-05-24 | 1件のコメント | WhatsAppで共有
  • ビジョン、オーディオ、言語モダリティをすべて包含する General Representation Model
  • 事前学習済みモデルなしでも、統合されたタスクで優れた結果を示す
  • 強力な Emergent Zero-shot Retrieval により、学習データ内でペアリングされていないモダリティ同士のアラインメントが可能
  • Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image

1件のコメント

 
dbs0829 2023-05-24

かなり多くのタスクでSOTAを塗り替えたようですね