正規化なしのTransformers技術
(jiachenzhu.github.io)要旨
- 現代のニューラルネットワークでは、正規化層は必須だと考えられてきた。
- 本研究は、正規化なしでも同等またはそれ以上の性能を達成できることを示す。
- Dynamic Tanh(DyT)というシンプルな手法を紹介し、これは正規化層を置き換えられる。
- DyTは主にハイパーパラメータのチューニングなしでも、正規化されたモデルと同等またはそれ以上の性能を発揮する。
- さまざまな設定でDyTの効果を検証し、正規化層の必須性を再考させる。
実装
- DyTモジュールはPyTorchコード数行で実装できる。
主な発見
- レイヤー正規化は、スケーリングされた
tanh関数のように動作する。 - 初期レイヤーでは主に線形だが、深いレイヤーでは
tanh関数特有のS字曲線を持つ。
評価
- さまざまなアーキテクチャとタスクでDyTの効果と汎用性を評価した。
- すべてのケースで、DyTを使用したTransformersは正規化されたモデルと同等またはそれ以上の性能を発揮した。
資料
- 研究の詳細は論文のダウンロードで確認できる。
- 実装の詳細はGitHubリポジトリで確認できる。
まだコメントはありません。