6 ポイント 投稿者 xguru 2023-04-22 | まだコメントはありません。 | WhatsAppで共有
  • "LLaVA : Large Language and Vision Assistant"
  • 汎用的な視覚および言語理解のために、ビジョンエンコーダとVicunaを組み合わせた大規模マルチモーダルモデル
  • マルチモーダルGPT-4レベルの能力と、科学分野の質問応答におけるSOTA精度を追求
  • 論文、コード、デモを公開

まだコメントはありません。

まだコメントはありません。