LLaVA: Visual Instruction Tuning

xguru · 2023-04-22T10:32:01+09:00

"LLaVA : Large Language and Vision Assistant" 汎用的な視覚および言語理解のために、ビジョンエンコーダとVicunaを組み合わせた大規模マルチモーダルモデルマルチモーダルGPT-4レベルの能力と、科学分野の質問応答におけるSOTA精度を追求論文、コード、デモを公開

(llava-vl.github.io)

6 ポイント投稿者 xguru 2023-04-22 | まだコメントはありません。 | WhatsAppで共有

"LLaVA : Large Language and Vision Assistant"
汎用的な視覚および言語理解のために、ビジョンエンコーダとVicunaを組み合わせた大規模マルチモーダルモデル
マルチモーダルGPT-4レベルの能力と、科学分野の質問応答におけるSOTA精度を追求
論文、コード、デモを公開

LLaVA: Visual Instruction Tuning

関連記事

まだコメントはありません。