13 ポイント 投稿者 xguru 2023-12-28 | まだコメントはありません。 | WhatsAppで共有
  • MLLM(Multimodal Large Language Model)
    • 画像内のあらゆる形状および細粒度の空間参照を理解
  • 主な貢献
    • Ferret Model: ハイブリッド領域表現 + 空間認識ビジュアルサンプラー
    • GRITデータセット: 大規模・階層的・堅牢な命令チューニング用データセット。110万件のサンプルと95万件のハードネガティブデータを含む
    • Ferret Bench: マルチモーダル評価ベンチマーク(Referring/Grounding + Semantics + Knowledge + Reasoning を複合的に要求)

まだコメントはありません。

まだコメントはありません。