11 ポイント 投稿者 xguru 2023-03-31 | 1件のコメント | WhatsAppで共有
  • GPT-4のように画像とテキストの入力をあわせて処理できるマルチモーダルシステムの開発を目標とする
  • そのために、画像・動画・テキストを処理して推論するLMM(Large Multimodal Model)であるDeepMindのFlamingoモデルをオープンソースで実装
  • 最初のリリースに含まれるもの
    • FlamingoスタイルのLMMを訓練するためのPythonフレームワーク
    • 画像とテキストがインターリーブされた大規模マルチモーダルデータセット
    • 視覚・言語タスク向けのインコンテキスト学習評価ベンチマーク
    • LLaMAベースのOpenFlamingo-9Bモデル
  • Flamingoの訓練データセットは公開されていないため、LAION-2BのMultimodal C4データセットと、1,000万サンプルから500万サンプルを抽出して訓練