Otter: コンテキスト内で命令チューニングが可能なマルチモーダルモデル

xguru · 2023-06-14T10:16:01+09:00

LLMのゼロショット性能を高めるには高品質なインストラクションセットが不可欠であり、VLM（視覚言語モデル）も同様しかし現在のvision-languageインストラクションセットは、量・多様性・創造性の面で非常に限定的 MIMIC-IT（MultI-Modal In-Context Instruction Tuning）を提案画像と動画から取得した220万件のユニークな命令と、280万件のマルチモーダル命令-応答ペアで構成されたデータセット MIMIC-ITデータセットで学習した大規模VLMがOtter 8言語をサポート: 英語、中国語、日本語、ドイツ語、フランス語、スペイン語、アラビア語

(github.com/Luodian)

6 ポイント投稿者 xguru 2023-06-14 | まだコメントはありません。 | WhatsAppで共有

LLMのゼロショット性能を高めるには高品質なインストラクションセットが不可欠であり、VLM（視覚言語モデル）も同様
しかし現在のvision-languageインストラクションセットは、量・多様性・創造性の面で非常に限定的
MIMIC-IT（MultI-Modal In-Context Instruction Tuning）を提案
画像と動画から取得した220万件のユニークな命令と、280万件のマルチモーダル命令-応答ペアで構成されたデータセット
MIMIC-ITデータセットで学習した大規模VLMがOtter
8言語をサポート: 英語、中国語、日本語、ドイツ語、フランス語、スペイン語、アラビア語

Otter: コンテキスト内で命令チューニングが可能なマルチモーダルモデル

関連記事

まだコメントはありません。