- ディープラーニングモデルの一般化(generalization)現象は、従来のモデルとは異なり神秘的だという認識がある
- 過学習(overfitting)、ダブルディセント(double descent)、過剰パラメータ化(overparametrization) などがディープラーニングの特徴としてよく挙げられる
- しかし、これらの現象はニューラルネットワークに限定されたものではなく、PAC-Bayes や可算な仮説境界といった古典的な一般化フレームワークで説明できる
- 「ソフトな帰納バイアス(soft inductive biases)」 という概念が、こうした一般化現象を説明する中核原理である
ソフトな帰納バイアス(Soft Inductive Biases)
- 従来の帰納バイアスは、一般化性能を高めるために仮説空間を制限する方式である
- ソフトな帰納バイアスは、仮説空間の柔軟性を保ちながら特定の解に選好を与える
- CNN でパラメータ共有によって局所性や平行移動不変性を保つように、特定の性質に対して穏やかな正則化を加える
- 過剰パラメータ化モデルでも一般化性能が高い理由は、ソフトな帰納バイアスが作用しているためである
一般化フレームワーク(Generalization Frameworks)
PAC-Bayes と可算な仮説境界
- PAC-Bayes は一般化リスクを、経験リスクとモデルの圧縮可能性(compressibility)によって説明する
- 大きなモデルでも、モデルが単純で圧縮可能であれば良い一般化性能が保証される
- 式:
- 期待リスク ≤ 経験リスク + 圧縮可能性に関連する項
有効次元数(Effective Dimensionality)
- 有効次元数 = モデルの損失関数のヘッセ行列(Hessian)の固有値のうち、大きい値の個数
- 有効次元数が低いほど、モデルは単純で一般化性能が高い
その他の一般化フレームワーク
- ラデマッハー複雑度(Rademacher complexity)や VC 次元などは、ディープラーニングの現象をうまく説明できない
- PAC-Bayes と可算な仮説境界は、これらの問題を解決できる
主な現象
良性過学習(Benign Overfitting)
- モデルがノイズまで完全に学習しながらも、一般化性能が高い現象
- 単純な線形モデルでも良性過学習を再現できる
- PAC-Bayes と可算な仮説境界で説明可能
過剰パラメータ化(Overparametrization)
- パラメータ数がデータ数より多くても、モデルの一般化性能は優れている
- 大きなモデルは学習後により単純な構造へ圧縮されるため、一般化性能が高い
ダブルディセント(Double Descent)
- モデルの複雑さが増加すると、損失が減少した後に増加し、さらに再び減少する現象
- 線形モデルでも再現可能
- 有効次元数とモデルの圧縮可能性で説明できる
代替的な見方(Alternative Views)
- ディープラーニングの一般化は神秘的だという従来の見方は、限定的な一般化フレームワークに依存しているためである
- PAC-Bayes と可算な仮説境界を通じて、一般化現象は説明可能である
- ディープラーニングの一般化が神秘的だという認識は、誤った先入観かもしれない
ディープラーニングの独自要素(Distinctive Features of Deep Learning)
表現学習(Representation Learning)
- ニューラルネットワークには、データの類似性を学習する能力がある
- 高次元データでは、ユークリッド距離よりも優れた類似度を測定できる
- 高次元における内挿(interpolation)および外挿(extrapolation)に有利である
汎用学習(Universal Learning)
- ディープラーニングモデルは、さまざまなドメインで一貫して高い性能を示す
- 転移学習やインコンテキスト学習(in-context learning)で優れた性能を発揮する
モード連結性(Mode Connectivity)
- 異なる初期化から学習したモデル同士が、単純な曲線に沿って接続できる場合がある
- SWA(Stochastic Weight Averaging) のような学習手法で活用される
結論と展望
- 良性過学習、過剰パラメータ化、ダブルディセントはニューラルネットワークに限られた現象ではない
- PAC-Bayes と可算な仮説境界で説明可能である
- ディープラーニングは、表現学習、汎用学習、モード連結性といった特性で差別化される
- 一般化性能はモデルの複雑さではなく、モデルの圧縮可能性と単純さに由来する
1件のコメント
Hacker Newsの意見
機械学習に関心があるなら、Stanfordの「Probability for computer scientists」の講義は優れたリソースである
PAC-BayesやVC理論の系譜よりも、アルゴリズム安定性のほうが説得力のある説明を与える
機械学習を理解したいなら、Josh Starmerの「The StatQuest Illustrated Guide to Machine Learning」を勧める
DNNには特別な汎化能力はない
過学習を避けるために仮説空間を制限するよりも、柔軟な仮説空間を受け入れ、データと整合する単純な解を好むことが重要である
ディープラーニングに初めて入門したとき、普遍近似定理の証明を学ぶことが大いに役立った
「深い」ネットワークが必要となる興味深い例は、最近のRNNに関する論文で議論されている
テキストデータを収集し、単語間の距離を保存して予測アルゴリズムを作るというアイデアがある
何が「AI」と規定され、規制されるのか、その境界がどこにあるのか気になる
人工ニューロンとは、線形回帰に活性化関数を追加して非線形にしたものである