6 ポイント 投稿者 ninebow 2024-03-16 | まだコメントはありません。 | WhatsAppで共有

AppleがMM1というマルチモーダルLLMに関する研究結果を公開しました。(モデルのコードや重みは公開しておらず、今後も公開しないようです)

Image EncoderやVL-Connector、そしてデータセットや学習方法などについて、モデルを自分で学習したりチューニングしたりする方は、一度目を通してみるとよさそうなので、ChatGPTと一緒に整理した内容を共有します。

原文はarXivサイトで「MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training」として確認できます。


エンコーダの教訓: 画像解像度が最も大きな影響を持ち、その次にモデルサイズと学習データ構成が続きます。

Encoder lesson: Image resolution has the highest impact, followed by model size and training data composition.

VLコネクタの教訓: ビジュアルトークン数と画像解像度が最も重要で、VLコネクタの種類はほとんど影響しません。

VL Connector Lesson: Number of visual tokens and image resolution matters most, while the type of VL connector has little effect.

データの教訓1: インターリーブデータは少数ショットとテキスト専用性能に役立ち、キャプションデータはゼロショット性能を向上させます。

Data lesson 1: interleaved data is instrumental for few-shot and textonly performance, while captioning data lifts zero-shot performance.

データの教訓2: テキスト専用データは少数ショットおよびテキスト専用性能に役立ちます。

Data lesson 2: text-only data helps with few-shot and text-only performance.

データの教訓3: 画像データとテキストデータを慎重に混合することで、最適なマルチモーダル性能を得つつ、強力なテキスト性能を維持できます。

Data lesson 3: Careful mixture of image and text data can yield optimal multimodal performance and retain strong text performance.

データの教訓4: 合成データは少数ショット学習に役立ちます。

Data lesson 4: Synthetic data helps with few-shot learning.

まだコメントはありません。

まだコメントはありません。