Microsoft Kosmos-1: マルチモーダルLLM（MLLM）

xguru · 2023-03-02T09:56:41+09:00

一般的な形式を認識し、コンテキスト内学習（few-shot）を行い、指示に従う（zero-shot）Multimodal Large Language Model（MLLM）テキスト、画像、画像キャプションのペアなどで学習されたモデルで、以下のタスクで印象的な性能を発揮言語理解、生成、OCRを必要としないNLP（文書画像からの直接認識）マルチモーダル対話、画像キャプショニング、視覚的質問応答説明付き画像認識（テキスト指示による分類指定）などのビジョンタスククロスモーダル転移（言語からマルチモーダルへ、マルチモーダルから言語へ知識を転移）によって、MLLMは利点を得られる

(arxiv.org)

9 ポイント投稿者 xguru 2023-03-02 | 1件のコメント | WhatsAppで共有

一般的な形式を認識し、コンテキスト内学習（few-shot）を行い、指示に従う（zero-shot）Multimodal Large Language Model（MLLM）
テキスト、画像、画像キャプションのペアなどで学習されたモデルで、以下のタスクで印象的な性能を発揮
1. 言語理解、生成、OCRを必要としないNLP（文書画像からの直接認識）
2. マルチモーダル対話、画像キャプショニング、視覚的質問応答
3. 説明付き画像認識（テキスト指示による分類指定）などのビジョンタスク
クロスモーダル転移（言語からマルチモーダルへ、マルチモーダルから言語へ知識を転移）によって、MLLMは利点を得られる

1件のコメント

xguru 2023-03-02

Repo : https://github.com/microsoft/unilm

Microsoft Kosmos-1: マルチモーダルLLM（MLLM）

関連記事

1件のコメント