4 ポイント 投稿者 xguru 2024-06-10 | まだコメントはありません。 | WhatsAppで共有
  • 高解像度画像を複数の小さな領域に分割して分析し、細部の理解と推論を可能にする vision-language アーキテクチャモデル
  • Llama-3-8b-Dragonfly-v1(一般ドメイン)、Llama-3-8b-Dragonfly-Med-v1(医療ドメイン)など、2つのオープンソースモデルを公開
  • Llama-3-8b-Dragonfly-v1 は550万件の画像-指示文ペアで学習され、Llama-3-8b-Dragonfly-Med-v1 はさらに140万件の医療画像-指示文でファインチューニングされた
  • Dragonfly は視覚的常識推論、画像キャプショニングなどのベンチマークで優れた性能を示す
  • Dragonfly-Med は医療画像理解分野で Med-Gemini など既存モデルを上回る

Dragonfly アーキテクチャ

  • 多重解像度視覚エンコーディング (Multi-resolution Visual Encoding):

    • 低・中・高解像度で画像を処理する
    • 各画像を解像度に応じて複数のサブ画像に分割し、これを視覚トークンとしてエンコードする
    • エンコードされたトークンを language space に projection して concatenate したシーケンスを LLM の入力として与える
    • これにより大容量画像を効率的に処理し、視覚データ処理の granularity を高められる
  • Zoom-in Patch Selection:

    • 高解像度画像の重要な視覚的ディテールに集中するための selective approach
    • 重要度の高い高解像度サブ画像のみを選別して使う novel な zoom-in patch selection 戦略を採用
    • 中・高解像度サブ画像の summary embedding を比較し、最も関連性の高いパッチだけを選択する
    • これにより重複を除去し、コアとなるコンテンツ領域に集中することで、モデル全体の効率性と細部領域の理解度を高める
  • この2つの戦略により、画像領域の細かなディテールにより集中し、常識的推論能力を向上させる。

  • 細部情報の把握に最適化されているにもかかわらず、VQA、画像キャプショニングなど一般的な画像理解ベンチマークでも良好なゼロショット性能を示す。

Dragonfly モデル性能評価

  • AI2D、ScienceQA、MMMU、MMVet、POPE など5つの vision-language ベンチマークで評価された
    • AI2D、ScienceQA: 科学ドメインにおける視覚的常識推論を評価
    • MMMU、MMVet: vision-language 能力の総合評価
    • POPE: オブジェクト単位の hallucination を評価
  • 他の著名な vision-language モデルと比肩する優れた性能を示す

Dragonfly-Med の性能

  • Stanford Medicine と協業し、Dragonfly を140万件の医療画像-指示文で追加学習させたバージョン
  • VQA-RAD、SLAKE、Path-VQA などの視覚的質問応答ベンチマークで、Med-Gemini など既存モデルの性能を上回る
  • IU X-Ray、Peir Gross、ROCO、MIMIC CXR などの医療画像キャプショニングベンチマークでも SOTA に準ずる性能を示す

今後の計画

  • LLaMA3-8B-Instruct をバックボーンとして、新しいアーキテクチャや視覚エンコーディング戦略などを探究する予定
  • より多様な科学分野へ適用範囲を広げ、オープンソースのマルチモーダル研究に貢献したい考え

まだコメントはありません。

まだコメントはありません。