Dragonfly - マルチ解像度ズームが可能な大規模ビジョン言語モデル
(together.ai)- 高解像度画像を複数の小さな領域に分割して分析し、細部の理解と推論を可能にする vision-language アーキテクチャモデル
- Llama-3-8b-Dragonfly-v1(一般ドメイン)、Llama-3-8b-Dragonfly-Med-v1(医療ドメイン)など、2つのオープンソースモデルを公開
- Llama-3-8b-Dragonfly-v1 は550万件の画像-指示文ペアで学習され、Llama-3-8b-Dragonfly-Med-v1 はさらに140万件の医療画像-指示文でファインチューニングされた
- Dragonfly は視覚的常識推論、画像キャプショニングなどのベンチマークで優れた性能を示す
- Dragonfly-Med は医療画像理解分野で Med-Gemini など既存モデルを上回る
Dragonfly アーキテクチャ
-
多重解像度視覚エンコーディング (Multi-resolution Visual Encoding):
- 低・中・高解像度で画像を処理する
- 各画像を解像度に応じて複数のサブ画像に分割し、これを視覚トークンとしてエンコードする
- エンコードされたトークンを language space に projection して concatenate したシーケンスを LLM の入力として与える
- これにより大容量画像を効率的に処理し、視覚データ処理の granularity を高められる
-
Zoom-in Patch Selection:
- 高解像度画像の重要な視覚的ディテールに集中するための selective approach
- 重要度の高い高解像度サブ画像のみを選別して使う novel な zoom-in patch selection 戦略を採用
- 中・高解像度サブ画像の summary embedding を比較し、最も関連性の高いパッチだけを選択する
- これにより重複を除去し、コアとなるコンテンツ領域に集中することで、モデル全体の効率性と細部領域の理解度を高める
-
この2つの戦略により、画像領域の細かなディテールにより集中し、常識的推論能力を向上させる。
-
細部情報の把握に最適化されているにもかかわらず、VQA、画像キャプショニングなど一般的な画像理解ベンチマークでも良好なゼロショット性能を示す。
Dragonfly モデル性能評価
- AI2D、ScienceQA、MMMU、MMVet、POPE など5つの vision-language ベンチマークで評価された
- AI2D、ScienceQA: 科学ドメインにおける視覚的常識推論を評価
- MMMU、MMVet: vision-language 能力の総合評価
- POPE: オブジェクト単位の hallucination を評価
- 他の著名な vision-language モデルと比肩する優れた性能を示す
Dragonfly-Med の性能
- Stanford Medicine と協業し、Dragonfly を140万件の医療画像-指示文で追加学習させたバージョン
- VQA-RAD、SLAKE、Path-VQA などの視覚的質問応答ベンチマークで、Med-Gemini など既存モデルの性能を上回る
- IU X-Ray、Peir Gross、ROCO、MIMIC CXR などの医療画像キャプショニングベンチマークでも SOTA に準ずる性能を示す
今後の計画
- LLaMA3-8B-Instruct をバックボーンとして、新しいアーキテクチャや視覚エンコーディング戦略などを探究する予定
- より多様な科学分野へ適用範囲を広げ、オープンソースのマルチモーダル研究に貢献したい考え
まだコメントはありません。