6 ポイント 投稿者 xguru 2023-10-31 | まだコメントはありません。 | WhatsAppで共有
  • "ConvNets Match Vision Transformers at Scale"
  • ConvNetは中小規模のデータセットでは高い性能を示すが、超大規模データセットではトランスフォーマー、特にビジョントランスフォーマー(ViT)に及ばないというのが一般的な認識
  • DeepMindの最新研究がこの通念に挑戦
    • トランスフォーマーのスケーラビリティはConvNetのスケーラビリティを上回ると考えられてきたが、それを裏付ける証拠は不足
    • 著者らはNFNet(Normalizer-Free ResNets)ファミリーを用いて、ネットワークの幅/深さを段階的に拡大
    • JFT-4Bで事前学習し、SAM(Sharpness-Aware Minimization)を使用してImageNetでファインチューニング
    • その結果、ViTモデルと同等の性能を示す
    • すべてのモデルが、計算資源の追加に応じて継続的に改善

まだコメントはありません。

まだコメントはありません。