15 ポイント 投稿者 xguru 2023-04-18 | まだコメントはありません。 | WhatsAppで共有
  • GPT-4で実演されたものに類似した新しいビジョン・言語機能を提供
    • 画像を詳細に説明し、料理の写真から調理方法を教えたり、問題点を見つけたり、広告コピーを作成したり、画像から着想を得た物語や詩を書いたりできる
  • 単一のプロジェクションレイヤーでBLIP-2とVicunaを接続しただけで、優れた性能を示す
  • 2段階で訓練を実施
    • 500万件の画像・テキストペアを4基のA100で10時間訓練。この段階だけでもVicunaは画像を理解するが、生成能力に大きな影響が出る
    • 問題を解決し使い勝手を改善するため、モデル自体とChatGPTを併用して高品質な画像・テキスト対を生成する新しい手法を提案
    • これを基に小規模な高品質データセット(合計3500ペア)を生成
    • 2回目のファインチューニング段階では、この小さなデータセットを対話型テンプレートで学習させ、生成の信頼性と全体的な使いやすさを改善
    • 驚くべきことに、この段階は計算効率が高く、A100 1基でわずか7分しかかからない

まだコメントはありません。

まだコメントはありません。