AppleのFastVLM - ビジョン言語モデルのための効率的なビジョンエンコーディング

(github.com/apple)

15 ポイント投稿者 GN⁺ 2025-05-14 | 1件のコメント | WhatsAppで共有

AppleがCVPR 2025で発表した「FastVLM: Efficient Vision Encoding for Vision Language Models」の公式Repo
FastViTHDはトークン数の削減と高解像度画像のエンコード時間短縮を実現
最小モデルはLLaVA-OneVision-0.5Bより85倍高速な結果と、3.4倍小さいエンコーダサイズを達成
大規模モデルはCambrian-1-8Bより優れた性能と7.9倍高速な速度を示す
iPhoneなどのモバイルデバイスで動作するデモアプリを提供

FastVLMプロジェクトの意義と利点

FastVLMはビジョン言語モデル（Vision Language Model, VLM）のための公式実装オープンソース
既存のビジョンエンコーダと比べて速度と効率性の面で優れた利点を提供
複数のハードウェア、とくにApple Siliconおよびモバイル環境での活用度が高い
さまざまなサイズと性能の事前学習済みモデルを直接選んで利用できる
他プロジェクトと比べて小さいモデルサイズで最適化されたリアルタイム応答と少ないハードウェア資源を実現

主な特徴

FastViTHDはハイブリッド構造の革新的なビジョンエンコーダで、出力トークン数を減らすことで高解像度画像のエンコード時間を大幅に短縮
最小のFastVLM-0.5Bモデルは、LLaVA-OneVision-0.5Bより85倍高速なTTFT（最初のトークン生成時間）と3.4倍小さいエンコーダサイズを持つ
Qwen2-7B LLMと組み合わせた大規模FastVLM-7Bモデルは、Cambrian-1-8Bなど最近のSOTAと比較して7.9倍高速なTTFTを示し、単一画像エンコーダで優れた性能を発揮
実際のモバイル環境（iOS）で動作するデモアプリもあわせて提供されており、技術の実用性をすぐに検証できる

モデル情報（Model Zoo）

さまざまなサイズのFastVLMモデル（FastVLM-0.5B、FastVLM-1.5B、FastVLM-7B）が2-stage版と3-stage版で提供される
各モデルごとにPyTorchチェックポイントファイルを公式に提供
ユーザーは公式提供のコマンドを使って、複数のモデルをcheckpointsディレクトリに一括ダウンロードできる

活用例（Usage Example）

学習済みPyTorchチェックポイントをpredict.pyスクリプトで簡単かつ高速に推論テストできる
サンプルコマンドで画像を入力し、プロンプト（質問）を与えると、その画像の説明や質問への回答を得られる

Apple Siliconおよびモバイルデバイス対応

Apple Siliconでの推論のために、別途モデルのエクスポートおよび量子化プロセスを説明するガイドを提供
Apple Silicon向けに直接最適化されたバージョンのチェックポイントファイルが公式配布されている
iPhone、iPad、Macなどですぐに使えるアプリ開発ガイドとソースコードが/appフォルダに案内されている

追加情報とオープンソース案内

FastVLM論文の公式arXivリンクとCVPR 2025学会論文の引用形式を提供
コードベースはさまざまなオープンソースプロジェクトに基づいており、貢献履歴とライセンス情報が別途案内されている
モデルおよびコードを利用する前に、必ず**ライセンス（ライセンスファイルおよびモデルライセンス）**を確認する必要がある

1件のコメント

GN⁺ 2025-05-14

Hacker Newsのコメント

2GBサイズの0.5B最上位モデルを、各アプリが個別にダウンロードするようにするのはさすがに無理があると思う。AppleはきっとOSレベルでこうしたモデルをあらかじめ搭載して、すべてのアプリがローカルで呼び出せるSDKを提供する計画があるはず。とても楽しみな時期だ。この点を確認したくてissueも立ててみた
- 公開重みに基づくOS標準のfoundation modelがあれば、ものすごい可能性があると思う。もしAPIでアプリ開発者がランタイム時にカスタムLoRa fine-tuningをOS標準モデルに読み込めるなら、理想的にはアプリ特化モデルでありながら一般的な人気アプリ並みのサイズを維持できる利点と、foundation modelの利点を同時に得られそう
- f16や、場合によってはint8に量子化すればモデルサイズをさらに小さくできるだろうけど、言っている本質はそこだよね。ユーザー目線でも、1つのアプリのために500MBのファイルを受け取るのはうれしい体験ではない
- 去年のWWDCでもLLM関連で似たような話をしていた記憶がある。OSがベースモデルを提供して、各アプリがLORAsでそのモデルを微調整したり、カスタムヘッドを載せたりできるという話だった
- これは大きなプレゼンの場でないと公には言及しない気がする。おそらくWWDCのような場で初めて確認できるのでは、という推測
time-to-first-tokenの速度を十分に引き上げることは、on-device continuous visionベースのアシスタントのように画面を見てすぐアクションするアプリには不可欠だと感じる。リポジトリで実際にアプリが動いているのを見てかなり感心したし、今夜自分でもビルドして試してみるのが楽しみ
AI/MLコミュニティにももっと積極的に貢献して、HuggingFaceに重みやモデル構造も上げてくれたらうれしい。面白いことに、今日ちょうど似たVLMデモで無料のVLMを使っているのを見た。参考リンク: https://github.com/ngxson/smolvlm-realtime-webcam
- SmolVLMはhuggingfaceチームのモデル。こういう小さなモデルでいろいろ作る試みを見るのはわくわくする。関連リンクも共有: https://huggingface.co/blog/smolvlm, https://arxiv.org/abs/2504.05299
Senというリアルタイム音声+ビジョンアプリを自作している。今はベータ公開中で、webrtcでフレームをリアルタイム配信している。すでに高速で賢いと感じているけれど、こうしたモデルがハードウェアにさらに近づいたらどれほど良くなるのか気になる。将来的には、こういうモデルがデバイス上で自然かつ高速なTTFBで動くようになる気がする
- 技術スタックやセットアップをまとめた記事があれば共有してもらえるとうれしいし、無ければ要約でもありがたい。子ども向けに、個人用Qwenのような、ボタンと音声でプロンプトをやり取りするものを作りたいんだけど、今のところビジョン機能までは必要ない（いつか追加できたら素敵だとは思う）。Siriには本当にがっかりしている。まだ期待するレベルには達していない感じ
リソースを無限投入するのではなく、効率的に資源を削減してモデルを小さくし、実用的に動かそうという努力が進んでいるのは本当にうれしい
これからのロボティクス分野の未来はVLA（vision-language-action）モデルなのだと、ますます実感する。Tesla FSDもend-to-endのVLAモデルだし、効率的なビジョンエンコーディングはロボットの安全性と応答性に決定的だと思う
視神経がひどく損傷した幼い子どもの父親として、いつ失明してもおかしくない状況だったが、NIHの臨床試験による実験的治療である程度視力を保てるようになった（科学への支援は続けるべきだと思う）。Vision-Language Modelの進歩のおかげで、たとえ子どもが失明したとしても、世界とつながり、大学にも通い、好きな科学や工学の分野で活躍できるという希望を持てるようになった。子どもは同年代と比べてもとても才能があり、将来が楽しみだ
- 80年代に全盲で育った経験を伝えたい。当時は今のような技術はなく、12歳くらいになってようやくコンピュータが登場し、古いタイプライターでタイピングを覚え、重い金属製の点字機で点字を書く方法を学んだ。当時のOCR技術もたいしたものではなく、高校に入ってやっと点字ディスプレイ付きのノートPCで授業についていけるようになった。DOSを使い、Word 5.5でノートを取っていた。ラテン語学習用のPC Linguaを除けば、学習特化ツールはほとんどなかった。結局、電子ノートと自分の頭脳だけが頼りだったが、それでも学校を終え、今では本当に満足できる仕事があり、自分の家に住み、すてきな恋人と一緒に、完全に自立して暮らしている。むしろ、何かと助けようとする母を意識的に遠ざけなければならなかったくらいだ。障害者の間では、親の過保護こそが自立を最も妨げる要因だという意味で、「親によって追加された障害」という言い方をする。感情的に受け取らず、その意味をぜひ考えてほしい。子どもは18歳で十分に自立できる。無理にその時期を遅らせるほど、本当の自立は難しくなり、内なる強さを育てる機会を逃してしまう。今の技術進歩に希望を感じるあなたの立場はよくわかるが、子どもの可能性はあなたが思っている以上だと信じている。自分の可能性を見つけられるようにしてあげれば、本当に驚くようなことが起きる。そして、高価な機器や最新ツールだけに頼らないでほしい。私もビジョンモデルは大好きだが、今でも家を出るときに持っていくのは白杖とスマホだけだ。たまにSiriに「ここはどこ？」と聞くことはあるが、結局道を見つけるのは自分の cane だ。実際、最新技術の多くは誇張されていて、普通の聴覚と触覚だけでも、もっと多くのことができるという点を強調したい。あなたの家族とお子さんのこれからの成長に心から幸運を祈る
こうした技術によって、携帯電話1台と眼鏡に付いたカメラだけで、視覚障害者のための実用的な支援者を作れるのではと思う。以前なら介助者なしでは移動できなかった人たちも、日常生活で自分の力で動ける自立した暮らしが可能になりそう
- クリームチキンとクリームマッシュルームスープを見分ける用途には役立つかもしれないけれど、移動支援という意味では、既存の視覚障害者の戦略と比べて特に役立つとは思わない。「ここに木がある、また木がある、歩行者がいる、また木がある、標識がある」といったフィードバックは、実際の移動にはあまり役に立たない気がする
これをllama.cppで変換・実行できるのか気になる。LLaVAベースという点はかなり期待できる

AppleのFastVLM - ビジョン言語モデルのための効率的なビジョンエンコーディング

FastVLMプロジェクトの意義と利点

主な特徴

モデル情報（Model Zoo）

活用例（Usage Example）

Apple Siliconおよびモバイルデバイス対応

追加情報とオープンソース案内

関連記事

1件のコメント

Hacker Newsのコメント