ONE-PEACE: 無制限マルチモダリティのための汎用表現モデル
(github.com/OFA-Sys)- ビジョン、オーディオ、言語モダリティをすべて包含する General Representation Model
- 事前学習済みモデルなしでも、統合されたタスクで優れた結果を示す
- 強力な Emergent Zero-shot Retrieval により、学習データ内でペアリングされていないモダリティ同士のアラインメントが可能
- Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image
1件のコメント
かなり多くのタスクでSOTAを塗り替えたようですね