Llama 3-V - GPT4-Vと同等の性能を100分の1のモデル規模と500ドルで実現

(aksh-garg.medium.com)

10 ポイント投稿者 GN⁺ 2024-05-29 | まだコメントはありません。 | WhatsAppで共有

Llama3-VはLlama3をベースにした初のマルチモーダルモデル
Llama3-Vは500ドル未満のコストで学習された
ベンチマークではLlavaより10〜20%性能が向上し、100倍大きいクローズドモデルと比べても大半の指標で同等の性能を示した

モデルアーキテクチャ

SigLIP: 画像埋め込みモデルで、CLIPに似ているがシグモイド損失を使用する。
テキスト埋め込みの整列: SigLIPを固定し、投影モジュールを使って画像埋め込みをテキスト埋め込みに整列させる。
画像トークンの追加: 画像埋め込みをテキストトークンの前に追加してLlama3に入力する。

推論の最適化

キャッシュ: SigLIPモデルの画像埋め込みを事前計算し、GPUの活用率を高め、学習・推論時間を節約する。
MPS/MLX最適化: SigLIPモデルをMPS向けに最適化し、1秒あたり32枚の画像を処理する。

学習プロセス

埋め込みの事前計算: SigLIPを使って画像埋め込みを事前計算する。
投影レイヤーの学習: 投影レイヤーを通じて画像とテキストの埋め込みをマルチモーダル埋め込み空間に整列させる。
教師あり学習: 事前学習後、教師あり学習を通じてモデル性能を向上させる。

要約

Llama3 8Bにビジョンエンコーダを追加。
Llavaより10〜20%性能向上。
GPT4v、Gemini Ultra、Claude Opusのような100倍大きいモデルと同等の性能。
500ドル未満で効率的な学習および教師あり学習パイプラインを提供。

GN⁺の見解

興味深い点: Llama3-Vは低コストで高性能なマルチモーダルモデルを実現している点が興味深い。
批判的な視点: モデル規模とコストを抑えながら性能を維持することが、どこまで持続可能なのかは疑問が残る。
関連技術: 類似の機能を提供するモデルとしてはCLIPとDALL-Eがある。
導入時の検討事項: 新技術を導入する際は、モデルの精度とコスト効率を考慮する必要がある。
技術選定のメリットとデメリット: 低コストで高性能を得られる一方、モデルの拡張性や保守コストも考慮すべきだ。

まだコメントはありません。

まだコメントはありません。