Otter: コンテキスト内で命令チューニングが可能なマルチモーダルモデル
(github.com/Luodian)- LLMのゼロショット性能を高めるには高品質なインストラクションセットが不可欠であり、VLM(視覚言語モデル)も同様
- しかし現在のvision-languageインストラクションセットは、量・多様性・創造性の面で非常に限定的
- MIMIC-IT(MultI-Modal In-Context Instruction Tuning)を提案
- 画像と動画から取得した220万件のユニークな命令と、280万件のマルチモーダル命令-応答ペアで構成されたデータセット
- MIMIC-ITデータセットで学習した大規模VLMがOtter
- 8言語をサポート: 英語、中国語、日本語、ドイツ語、フランス語、スペイン語、アラビア語
まだコメントはありません。