Ferret モデル概要
- Ferret モデルは、ハイブリッド領域表現および空間認識ビジュアルサンプラーを通じて、細かな参照と精密な位置指定をオープンボキャブラリで可能にする。
- GRIT データセット(約 1.1M)は、大規模で階層的かつ堅牢な指示チューニング用データセット。
- Ferret-Bench は、参照/位置指定、意味、知識、推論を同時に要求するマルチモーダル評価ベンチマーク。
Ferret モデル公開
- [12/14] 7B、13B チェックポイントを公開。
- [10/30] FERRET モデルと Ferret-Bench のコードを公開。
- データとコードは研究目的でのみ使用でき、LLaMA、Vicuna、GPT-4 のライセンス契約に従う。
- データセットは CC BY NC 4.0(非商用利用のみ許可)であり、このデータセットを使用して学習したモデルは研究目的以外では使用できない。
インストールと使い方
- FERRET リポジトリをクローンし、該当フォルダへ移動した後、必要なパッケージをインストールする。
- 追加パッケージのインストールは、特定の学習ケースで必要になる。
学習
- FERRET は 8 基の A100 GPU(各 80GB メモリ)で学習された。
- 少ない GPU 数で学習する場合は、
per_device_train_batch_size を減らし、gradient_accumulation_steps を増やす必要がある。
- Vicuna チェックポイントと LLaVA のプロジェクターの準備が必要。
- 学習スクリプトを提供。
評価
チェックポイント
- 事前学習済みモデルと Vicuna の間の
delta を抽出。
- Vicuna の重みをダウンロードした後、用意された重みオフセットをダウンロードして適用する。
デモ
- FERRET の学習後、ローカルでチェックポイントを使用してデモを実行する。
- Gradio Web UI を使用。
- コントローラー、Gradio Web サーバー、モデルワーカーを順番に実行する。
引用
- Ferret が役立った場合は、次の BibTeX で引用する。
謝辞
- LLaVA: ベースコードベース。
- Vicuna: LLM コードベース。
GN⁺の意見
- 革新的な技術: Ferret モデルは、多様な語彙を使って細かな参照と位置指定を可能にする革新的な技術を提示している。
- 研究の重要性: このモデルとデータセットは、人工知能分野における参照および位置指定タスクの研究を促進できる重要なリソースである。
- 多様な応用可能性: この技術は、画像とテキストを組み合わせたさまざまなアプリケーションに活用でき、人工知能の視覚理解と相互作用を一段引き上げる可能性がある。
まだコメントはありません。