MiniGPT-4:高度なLLMを用いたビジョン・言語理解の向上
(minigpt-4.github.io)- GPT-4で実演されたものに類似した新しいビジョン・言語機能を提供
- 画像を詳細に説明し、料理の写真から調理方法を教えたり、問題点を見つけたり、広告コピーを作成したり、画像から着想を得た物語や詩を書いたりできる
- 単一のプロジェクションレイヤーでBLIP-2とVicunaを接続しただけで、優れた性能を示す
- 2段階で訓練を実施
- 500万件の画像・テキストペアを4基のA100で10時間訓練。この段階だけでもVicunaは画像を理解するが、生成能力に大きな影響が出る
- 問題を解決し使い勝手を改善するため、モデル自体とChatGPTを併用して高品質な画像・テキスト対を生成する新しい手法を提案
- これを基に小規模な高品質データセット(合計3500ペア)を生成
- 2回目のファインチューニング段階では、この小さなデータセットを対話型テンプレートで学習させ、生成の信頼性と全体的な使いやすさを改善
- 驚くべきことに、この段階は計算効率が高く、A100 1基でわずか7分しかかからない
まだコメントはありません。