Convolution帝国の逆襲
(gonzoml.substack.com)- "ConvNets Match Vision Transformers at Scale"
- ConvNetは中小規模のデータセットでは高い性能を示すが、超大規模データセットではトランスフォーマー、特にビジョントランスフォーマー(ViT)に及ばないというのが一般的な認識
- DeepMindの最新研究がこの通念に挑戦
- トランスフォーマーのスケーラビリティはConvNetのスケーラビリティを上回ると考えられてきたが、それを裏付ける証拠は不足
- 著者らはNFNet(Normalizer-Free ResNets)ファミリーを用いて、ネットワークの幅/深さを段階的に拡大
- JFT-4Bで事前学習し、SAM(Sharpness-Aware Minimization)を使用してImageNetでファインチューニング
- その結果、ViTモデルと同等の性能を示す
- すべてのモデルが、計算資源の追加に応じて継続的に改善
まだコメントはありません。