- GPT-4のように画像とテキストの入力をあわせて処理できるマルチモーダルシステムの開発を目標とする
- そのために、画像・動画・テキストを処理して推論するLMM(Large Multimodal Model)であるDeepMindのFlamingoモデルをオープンソースで実装
- 最初のリリースに含まれるもの
- FlamingoスタイルのLMMを訓練するためのPythonフレームワーク
- 画像とテキストがインターリーブされた大規模マルチモーダルデータセット
- 視覚・言語タスク向けのインコンテキスト学習評価ベンチマーク
- LLaMAベースのOpenFlamingo-9Bモデル
- Flamingoの訓練データセットは公開されていないため、LAION-2BのMultimodal C4データセットと、1,000万サンプルから500万サンプルを抽出して訓練
1件のコメント
Flamingo: Few-Shot Learningのための視覚言語モデル