Dragonfly - マルチ解像度ズームが可能な大規模ビジョン言語モデル

xguru · 2024-06-10T10:10:02+09:00

高解像度画像を複数の小さな領域に分割して分析し、細部の理解と推論を可能にする vision-language アーキテクチャモデル Llama-3-8b-Dragonfly-v1（一般ドメイン）、Llama-3-8b-Dragonfly-Med-v1（医療ドメイン）など、2つのオープンソースモデルを公開 Llama-3-8b-Dragonfly-v1 は550万件の画像-指示文ペアで学習され、Llama-3-8b-Dragonfly-Med-v1 はさらに140万件の医療画像-指示文でファインチューニングされた Dragonfly は視覚的常識推論、画像キャプショニングなどのベンチマークで優れた性能を示す Dragonfly-Med は医療画像理解分野で Med-Gemini など既存モデルを上回る Dragonfly アーキテクチャ多重解像度視覚エンコーディング (Multi-resolution Visual Encoding): 低・中・高解像度で画像を処理する各画像を解像度に応じて複数のサブ画像に分割し、これを視覚トークンとしてエンコードするエンコードされたトークンを language space に projection して concatenate したシーケンスを LLM の入力として与えるこれにより大容量画像を効率的に処理し、視覚データ処理の granularity を高められる Zoom-in Patch Selection: 高解像度画像の重要な視覚的ディテールに集中するための selective approach 重要度の高い高解像度サブ画像のみを選別して使う novel な zoom-in patch selection 戦略を採用中・高解像度サブ画像の summary embedding を比較し、最も関連性の高いパッチだけを選択するこれにより重複を除去し、コアとなるコンテンツ領域に集中することで、モデル全体の効率性と細部領域の理解度を高めるこの2つの戦略により、画像領域の細かなディテールにより集中し、常識的推論能力を向上させる。細部情報の把握に最適化されているにもかかわらず、VQA、画像キャプショニングなど一般的な画像理解ベンチマークでも良好なゼロショット性能を示す。 Dragonfly モデル性能評価 AI2D、ScienceQA、MMMU、MMVet、POPE など5つの vision-language ベンチマークで評価された AI2D、ScienceQA: 科学ドメインにおける視覚的常識推論を評価 MMMU、MMVet: vision-language 能力の総合評価 POPE: オブジェクト単位の hallucination を評価他の著名な vision-language モデルと比肩する優れた性能を示す Dragonfly-Med の性能 Stanford Medicine と協業し、Dragonfly を140万件の医療画像-指示文で追加学習させたバージョン VQA-RAD、SLAKE、Path-VQA などの視覚的質問応答ベンチマークで、Med-Gemini など既存モデルの性能を上回る IU X-Ray、Peir Gross、ROCO、MIMIC CXR などの医療画像キャプショニングベンチマークでも SOTA に準ずる性能を示す今後の計画 LLaMA3-8B-Instruct をバックボーンとして、新しいアーキテクチャや視覚エンコーディング戦略などを探究する予定より多様な科学分野へ適用範囲を広げ、オープンソースのマルチモーダル研究に貢献したい考え

(together.ai)

4 ポイント投稿者 xguru 2024-06-10 | まだコメントはありません。 | WhatsAppで共有

高解像度画像を複数の小さな領域に分割して分析し、細部の理解と推論を可能にする vision-language アーキテクチャモデル
Llama-3-8b-Dragonfly-v1（一般ドメイン）、Llama-3-8b-Dragonfly-Med-v1（医療ドメイン）など、2つのオープンソースモデルを公開
Llama-3-8b-Dragonfly-v1 は550万件の画像-指示文ペアで学習され、Llama-3-8b-Dragonfly-Med-v1 はさらに140万件の医療画像-指示文でファインチューニングされた
Dragonfly は視覚的常識推論、画像キャプショニングなどのベンチマークで優れた性能を示す
Dragonfly-Med は医療画像理解分野で Med-Gemini など既存モデルを上回る

Dragonfly アーキテクチャ

多重解像度視覚エンコーディング (Multi-resolution Visual Encoding):
- 低・中・高解像度で画像を処理する
- 各画像を解像度に応じて複数のサブ画像に分割し、これを視覚トークンとしてエンコードする
- エンコードされたトークンを language space に projection して concatenate したシーケンスを LLM の入力として与える
- これにより大容量画像を効率的に処理し、視覚データ処理の granularity を高められる
Zoom-in Patch Selection:
- 高解像度画像の重要な視覚的ディテールに集中するための selective approach
- 重要度の高い高解像度サブ画像のみを選別して使う novel な zoom-in patch selection 戦略を採用
- 中・高解像度サブ画像の summary embedding を比較し、最も関連性の高いパッチだけを選択する
- これにより重複を除去し、コアとなるコンテンツ領域に集中することで、モデル全体の効率性と細部領域の理解度を高める
この2つの戦略により、画像領域の細かなディテールにより集中し、常識的推論能力を向上させる。
細部情報の把握に最適化されているにもかかわらず、VQA、画像キャプショニングなど一般的な画像理解ベンチマークでも良好なゼロショット性能を示す。

Dragonfly モデル性能評価

AI2D、ScienceQA、MMMU、MMVet、POPE など5つの vision-language ベンチマークで評価された
- AI2D、ScienceQA: 科学ドメインにおける視覚的常識推論を評価
- MMMU、MMVet: vision-language 能力の総合評価
- POPE: オブジェクト単位の hallucination を評価
他の著名な vision-language モデルと比肩する優れた性能を示す

Dragonfly-Med の性能

Stanford Medicine と協業し、Dragonfly を140万件の医療画像-指示文で追加学習させたバージョン
VQA-RAD、SLAKE、Path-VQA などの視覚的質問応答ベンチマークで、Med-Gemini など既存モデルの性能を上回る
IU X-Ray、Peir Gross、ROCO、MIMIC CXR などの医療画像キャプショニングベンチマークでも SOTA に準ずる性能を示す

今後の計画

LLaMA3-8B-Instruct をバックボーンとして、新しいアーキテクチャや視覚エンコーディング戦略などを探究する予定
より多様な科学分野へ適用範囲を広げ、オープンソースのマルチモーダル研究に貢献したい考え