Appleが公開したマルチモーダルLLM「MM1」に関する論文を整理してみました。
(discuss.pytorch.kr)AppleがMM1というマルチモーダルLLMに関する研究結果を公開しました。(モデルのコードや重みは公開しておらず、今後も公開しないようです)
Image EncoderやVL-Connector、そしてデータセットや学習方法などについて、モデルを自分で学習したりチューニングしたりする方は、一度目を通してみるとよさそうなので、ChatGPTと一緒に整理した内容を共有します。
原文はarXivサイトで「MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training」として確認できます。
エンコーダの教訓: 画像解像度が最も大きな影響を持ち、その次にモデルサイズと学習データ構成が続きます。
Encoder lesson: Image resolution has the highest impact, followed by model size and training data composition.
VLコネクタの教訓: ビジュアルトークン数と画像解像度が最も重要で、VLコネクタの種類はほとんど影響しません。
VL Connector Lesson: Number of visual tokens and image resolution matters most, while the type of VL connector has little effect.
データの教訓1: インターリーブデータは少数ショットとテキスト専用性能に役立ち、キャプションデータはゼロショット性能を向上させます。
Data lesson 1: interleaved data is instrumental for few-shot and textonly performance, while captioning data lifts zero-shot performance.
データの教訓2: テキスト専用データは少数ショットおよびテキスト専用性能に役立ちます。
Data lesson 2: text-only data helps with few-shot and text-only performance.
データの教訓3: 画像データとテキストデータを慎重に混合することで、最適なマルチモーダル性能を得つつ、強力なテキスト性能を維持できます。
Data lesson 3: Careful mixture of image and text data can yield optimal multimodal performance and retain strong text performance.
データの教訓4: 合成データは少数ショット学習に役立ちます。
Data lesson 4: Synthetic data helps with few-shot learning.
まだコメントはありません。