5 ポイント 投稿者 xguru 2023-06-16 | 1件のコメント | WhatsAppで共有
  • ピクセルそのものを比較する代わりに、画像の抽象的な表現を比較する内部モデルを生成して学習
  • コンピュータビジョンのタスクで強力な性能を発揮し、はるかに効率的。大規模なファインチューニングなしでもさまざまな用途に活用可能
  • わずか16基のA100 GPUだけで、72時間以内に6億3200万パラメータのビジュアルトランスフォーマーモデルを訓練可能
    • 各クラスあたり12個のラベル付きサンプルだけで、ImageNetのローショット分類でSOTA性能を示す
  • 論文はCVPR 2023で発表予定で、訓練コードとモデルチェックポイントもオープンソースとして公開
  • Image Joint Embedding Predictive Architecture

1件のコメント

 
libner 2023-06-16

誤字のため、「広範囲」が正しく書かれていないようです