Ferret - AppleのマルチモーダルLLM

xguru · 2023-12-28T11:21:02+09:00

MLLM（Multimodal Large Language Model）画像内のあらゆる形状および細粒度の空間参照を理解主な貢献 Ferret Model: ハイブリッド領域表現 + 空間認識ビジュアルサンプラー GRITデータセット: 大規模・階層的・堅牢な命令チューニング用データセット。110万件のサンプルと95万件のハードネガティブデータを含む Ferret Bench: マルチモーダル評価ベンチマーク（Referring/Grounding + Semantics + Knowledge + Reasoning を複合的に要求）

(github.com/apple)

13 ポイント投稿者 xguru 2023-12-28 | まだコメントはありません。 | WhatsAppで共有

MLLM（Multimodal Large Language Model）
- 画像内のあらゆる形状および細粒度の空間参照を理解
主な貢献
- Ferret Model: ハイブリッド領域表現 + 空間認識ビジュアルサンプラー
- GRITデータセット: 大規模・階層的・堅牢な命令チューニング用データセット。110万件のサンプルと95万件のハードネガティブデータを含む
- Ferret Bench: マルチモーダル評価ベンチマーク（Referring/Grounding + Semantics + Knowledge + Reasoning を複合的に要求）

Ferret - AppleのマルチモーダルLLM

関連記事

まだコメントはありません。