9 ポイント 投稿者 xguru 2023-03-02 | 1件のコメント | WhatsAppで共有
  • 一般的な形式を認識し、コンテキスト内学習(few-shot)を行い、指示に従う(zero-shot)Multimodal Large Language Model(MLLM)
  • テキスト、画像、画像キャプションのペアなどで学習されたモデルで、以下のタスクで印象的な性能を発揮
    1. 言語理解、生成、OCRを必要としないNLP(文書画像からの直接認識)
    2. マルチモーダル対話、画像キャプショニング、視覚的質問応答
    3. 説明付き画像認識(テキスト指示による分類指定)などのビジョンタスク
  • クロスモーダル転移(言語からマルチモーダルへ、マルチモーダルから言語へ知識を転移)によって、MLLMは利点を得られる

1件のコメント