Ferret - AppleのマルチモーダルLLM
(github.com/apple)- MLLM(Multimodal Large Language Model)
- 画像内のあらゆる形状および細粒度の空間参照を理解
- 主な貢献
- Ferret Model: ハイブリッド領域表現 + 空間認識ビジュアルサンプラー
- GRITデータセット: 大規模・階層的・堅牢な命令チューニング用データセット。110万件のサンプルと95万件のハードネガティブデータを含む
- Ferret Bench: マルチモーダル評価ベンチマーク(Referring/Grounding + Semantics + Knowledge + Reasoning を複合的に要求)
まだコメントはありません。