Convolution帝国の逆襲

xguru · 2023-10-31T10:03:01+09:00

"ConvNets Match Vision Transformers at Scale" ConvNetは中小規模のデータセットでは高い性能を示すが、超大規模データセットではトランスフォーマー、特にビジョントランスフォーマー（ViT）に及ばないというのが一般的な認識 DeepMindの最新研究がこの通念に挑戦トランスフォーマーのスケーラビリティはConvNetのスケーラビリティを上回ると考えられてきたが、それを裏付ける証拠は不足著者らはNFNet（Normalizer-Free ResNets）ファミリーを用いて、ネットワークの幅／深さを段階的に拡大 JFT-4Bで事前学習し、SAM（Sharpness-Aware Minimization）を使用してImageNetでファインチューニングその結果、ViTモデルと同等の性能を示すすべてのモデルが、計算資源の追加に応じて継続的に改善

(substack.com/gonzoml)

6 ポイント投稿者 xguru 2023-10-31 | まだコメントはありません。 | WhatsAppで共有

"ConvNets Match Vision Transformers at Scale"
ConvNetは中小規模のデータセットでは高い性能を示すが、超大規模データセットではトランスフォーマー、特にビジョントランスフォーマー（ViT）に及ばないというのが一般的な認識
DeepMindの最新研究がこの通念に挑戦
- トランスフォーマーのスケーラビリティはConvNetのスケーラビリティを上回ると考えられてきたが、それを裏付ける証拠は不足
- 著者らはNFNet（Normalizer-Free ResNets）ファミリーを用いて、ネットワークの幅／深さを段階的に拡大
- JFT-4Bで事前学習し、SAM（Sharpness-Aware Minimization）を使用してImageNetでファインチューニング
- その結果、ViTモデルと同等の性能を示す
- すべてのモデルが、計算資源の追加に応じて継続的に改善

Convolution帝国の逆襲

関連記事

まだコメントはありません。