Microsoft Kosmos-1: マルチモーダルLLM(MLLM)
(arxiv.org)- 一般的な形式を認識し、コンテキスト内学習(few-shot)を行い、指示に従う(zero-shot)Multimodal Large Language Model(MLLM)
- テキスト、画像、画像キャプションのペアなどで学習されたモデルで、以下のタスクで印象的な性能を発揮
- 言語理解、生成、OCRを必要としないNLP(文書画像からの直接認識)
- マルチモーダル対話、画像キャプショニング、視覚的質問応答
- 説明付き画像認識(テキスト指示による分類指定)などのビジョンタスク
- クロスモーダル転移(言語からマルチモーダルへ、マルチモーダルから言語へ知識を転移)によって、MLLMは利点を得られる
1件のコメント
Repo : https://github.com/microsoft/unilm