- AppleがCVPR 2025で発表した「FastVLM: Efficient Vision Encoding for Vision Language Models」の公式Repo
- FastViTHDはトークン数の削減と高解像度画像のエンコード時間短縮を実現
- 最小モデルはLLaVA-OneVision-0.5Bより85倍高速な結果と、3.4倍小さいエンコーダサイズを達成
- 大規模モデルはCambrian-1-8Bより優れた性能と7.9倍高速な速度を示す
- iPhoneなどのモバイルデバイスで動作するデモアプリを提供
FastVLMプロジェクトの意義と利点
- FastVLMはビジョン言語モデル(Vision Language Model, VLM)のための公式実装オープンソース
- 既存のビジョンエンコーダと比べて速度と効率性の面で優れた利点を提供
- 複数のハードウェア、とくにApple Siliconおよびモバイル環境での活用度が高い
- さまざまなサイズと性能の事前学習済みモデルを直接選んで利用できる
- 他プロジェクトと比べて小さいモデルサイズで最適化されたリアルタイム応答と少ないハードウェア資源を実現
主な特徴
- FastViTHDはハイブリッド構造の革新的なビジョンエンコーダで、出力トークン数を減らすことで高解像度画像のエンコード時間を大幅に短縮
- 最小のFastVLM-0.5Bモデルは、LLaVA-OneVision-0.5Bより85倍高速なTTFT(最初のトークン生成時間)と3.4倍小さいエンコーダサイズを持つ
- Qwen2-7B LLMと組み合わせた大規模FastVLM-7Bモデルは、Cambrian-1-8Bなど最近のSOTAと比較して7.9倍高速なTTFTを示し、単一画像エンコーダで優れた性能を発揮
- 実際のモバイル環境(iOS)で動作するデモアプリもあわせて提供されており、技術の実用性をすぐに検証できる
モデル情報(Model Zoo)
- さまざまなサイズのFastVLMモデル(FastVLM-0.5B、FastVLM-1.5B、FastVLM-7B)が2-stage版と3-stage版で提供される
- 各モデルごとにPyTorchチェックポイントファイルを公式に提供
- ユーザーは公式提供のコマンドを使って、複数のモデルを
checkpointsディレクトリに一括ダウンロードできる
活用例(Usage Example)
- 学習済みPyTorchチェックポイントをpredict.pyスクリプトで簡単かつ高速に推論テストできる
- サンプルコマンドで画像を入力し、プロンプト(質問)を与えると、その画像の説明や質問への回答を得られる
Apple Siliconおよびモバイルデバイス対応
- Apple Siliconでの推論のために、別途モデルのエクスポートおよび量子化プロセスを説明するガイドを提供
- Apple Silicon向けに直接最適化されたバージョンのチェックポイントファイルが公式配布されている
- iPhone、iPad、Macなどですぐに使えるアプリ開発ガイドとソースコードが
/appフォルダに案内されている
追加情報とオープンソース案内
- FastVLM論文の公式arXivリンクとCVPR 2025学会論文の引用形式を提供
- コードベースはさまざまなオープンソースプロジェクトに基づいており、貢献履歴とライセンス情報が別途案内されている
- モデルおよびコードを利用する前に、必ず**ライセンス(ライセンスファイルおよびモデルライセンス)**を確認する必要がある
1件のコメント
Hacker Newsのコメント