MiniGPT-4：高度なLLMを用いたビジョン・言語理解の向上

xguru · 2023-04-18T11:21:01+09:00

GPT-4で実演されたものに類似した新しいビジョン・言語機能を提供画像を詳細に説明し、料理の写真から調理方法を教えたり、問題点を見つけたり、広告コピーを作成したり、画像から着想を得た物語や詩を書いたりできる単一のプロジェクションレイヤーでBLIP-2とVicunaを接続しただけで、優れた性能を示す 2段階で訓練を実施 500万件の画像・テキストペアを4基のA100で10時間訓練。この段階だけでもVicunaは画像を理解するが、生成能力に大きな影響が出る問題を解決し使い勝手を改善するため、モデル自体とChatGPTを併用して高品質な画像・テキスト対を生成する新しい手法を提案これを基に小規模な高品質データセット（合計3500ペア）を生成 2回目のファインチューニング段階では、この小さなデータセットを対話型テンプレートで学習させ、生成の信頼性と全体的な使いやすさを改善驚くべきことに、この段階は計算効率が高く、A100 1基でわずか7分しかかからない

(minigpt-4.github.io)

15 ポイント投稿者 xguru 2023-04-18 | まだコメントはありません。 | WhatsAppで共有

GPT-4で実演されたものに類似した新しいビジョン・言語機能を提供
- 画像を詳細に説明し、料理の写真から調理方法を教えたり、問題点を見つけたり、広告コピーを作成したり、画像から着想を得た物語や詩を書いたりできる
単一のプロジェクションレイヤーでBLIP-2とVicunaを接続しただけで、優れた性能を示す
2段階で訓練を実施
- 500万件の画像・テキストペアを4基のA100で10時間訓練。この段階だけでもVicunaは画像を理解するが、生成能力に大きな影響が出る
- 問題を解決し使い勝手を改善するため、モデル自体とChatGPTを併用して高品質な画像・テキスト対を生成する新しい手法を提案
- これを基に小規模な高品質データセット（合計3500ペア）を生成
- 2回目のファインチューニング段階では、この小さなデータセットを対話型テンプレートで学習させ、生成の信頼性と全体的な使いやすさを改善
- 驚くべきことに、この段階は計算効率が高く、A100 1基でわずか7分しかかからない

MiniGPT-4：高度なLLMを用いたビジョン・言語理解の向上

関連記事

まだコメントはありません。