LLaVA: Visual Instruction Tuning (llava-vl.github.io) 6 ポイント 投稿者 xguru 2023-04-22 | まだコメントはありません。 | WhatsAppで共有 "LLaVA : Large Language and Vision Assistant" 汎用的な視覚および言語理解のために、ビジョンエンコーダとVicunaを組み合わせた大規模マルチモーダルモデル マルチモーダルGPT-4レベルの能力と、科学分野の質問応答におけるSOTA精度を追求 論文、コード、デモを公開 関連記事 LLaVaVision - llama.cpp/llavaで作られた「Be My Eyes」ウェブアプリ 13 ポイント · 4件のコメント · 2023-11-07 Qwen3-VLモデル公開 - より鋭い視覚、より深い思考、より広い実行力 6 ポイント · 2件のコメント · 2025-09-26 HyperCLOVA X Vision:目を開く 5 ポイント · 0件のコメント · 2024-08-21 LLaMAモデルの簡単な歴史 20 ポイント · 0件のコメント · 2023-05-04 Llama 3-V - GPT4-Vと同等の性能を100分の1のモデル規模と500ドルで実現 10 ポイント · 0件のコメント · 2024-05-29 まだコメントはありません。 まだコメントはありません。
まだコメントはありません。