ディープラーニングはそれほど神秘的でも特別でもない

(arxiv.org)

30 ポイント投稿者 GN⁺ 2025-03-18 | 1件のコメント | WhatsAppで共有

ディープラーニングモデルの一般化（generalization）現象は、従来のモデルとは異なり神秘的だという認識がある
過学習（overfitting）、ダブルディセント（double descent）、過剰パラメータ化（overparametrization） などがディープラーニングの特徴としてよく挙げられる
しかし、これらの現象はニューラルネットワークに限定されたものではなく、PAC-Bayes や可算な仮説境界といった古典的な一般化フレームワークで説明できる
「ソフトな帰納バイアス（soft inductive biases）」 という概念が、こうした一般化現象を説明する中核原理である

ソフトな帰納バイアス（Soft Inductive Biases）

従来の帰納バイアスは、一般化性能を高めるために仮説空間を制限する方式である
ソフトな帰納バイアスは、仮説空間の柔軟性を保ちながら特定の解に選好を与える
CNN でパラメータ共有によって局所性や平行移動不変性を保つように、特定の性質に対して穏やかな正則化を加える
過剰パラメータ化モデルでも一般化性能が高い理由は、ソフトな帰納バイアスが作用しているためである

一般化フレームワーク（Generalization Frameworks）

PAC-Bayes と可算な仮説境界

PAC-Bayes は一般化リスクを、経験リスクとモデルの圧縮可能性（compressibility）によって説明する
大きなモデルでも、モデルが単純で圧縮可能であれば良い一般化性能が保証される
式:
- 期待リスク ≤ 経験リスク + 圧縮可能性に関連する項

有効次元数（Effective Dimensionality）

有効次元数 = モデルの損失関数のヘッセ行列（Hessian）の固有値のうち、大きい値の個数
有効次元数が低いほど、モデルは単純で一般化性能が高い

その他の一般化フレームワーク

ラデマッハー複雑度（Rademacher complexity）や VC 次元などは、ディープラーニングの現象をうまく説明できない
PAC-Bayes と可算な仮説境界は、これらの問題を解決できる

主な現象

良性過学習（Benign Overfitting）

モデルがノイズまで完全に学習しながらも、一般化性能が高い現象
単純な線形モデルでも良性過学習を再現できる
PAC-Bayes と可算な仮説境界で説明可能

過剰パラメータ化（Overparametrization）

パラメータ数がデータ数より多くても、モデルの一般化性能は優れている
大きなモデルは学習後により単純な構造へ圧縮されるため、一般化性能が高い

ダブルディセント（Double Descent）

モデルの複雑さが増加すると、損失が減少した後に増加し、さらに再び減少する現象
線形モデルでも再現可能
有効次元数とモデルの圧縮可能性で説明できる

代替的な見方（Alternative Views）

ディープラーニングの一般化は神秘的だという従来の見方は、限定的な一般化フレームワークに依存しているためである
PAC-Bayes と可算な仮説境界を通じて、一般化現象は説明可能である
ディープラーニングの一般化が神秘的だという認識は、誤った先入観かもしれない

ディープラーニングの独自要素（Distinctive Features of Deep Learning）

表現学習（Representation Learning）

ニューラルネットワークには、データの類似性を学習する能力がある
高次元データでは、ユークリッド距離よりも優れた類似度を測定できる
高次元における内挿（interpolation）および外挿（extrapolation）に有利である

汎用学習（Universal Learning）

ディープラーニングモデルは、さまざまなドメインで一貫して高い性能を示す
転移学習やインコンテキスト学習（in-context learning）で優れた性能を発揮する

モード連結性（Mode Connectivity）

異なる初期化から学習したモデル同士が、単純な曲線に沿って接続できる場合がある
SWA（Stochastic Weight Averaging）のような学習手法で活用される

結論と展望

良性過学習、過剰パラメータ化、ダブルディセントはニューラルネットワークに限られた現象ではない
PAC-Bayes と可算な仮説境界で説明可能である
ディープラーニングは、表現学習、汎用学習、モード連結性といった特性で差別化される
一般化性能はモデルの複雑さではなく、モデルの圧縮可能性と単純さに由来する

1件のコメント

GN⁺ 2025-03-18

Hacker Newsの意見

機械学習に関心があるなら、Stanfordの「Probability for computer scientists」の講義は優れたリソースである
- この講義は、確率理論と機械学習の理論的基礎を深く扱っている
- Andrew Ngの講義も有名だが、線形代数学についての数学的理解が必要である
- ディープラーニングについては、3b1bの視覚的な入門が役に立つ
PAC-BayesやVC理論の系譜よりも、アルゴリズム安定性のほうが説得力のある説明を与える
- 関連資料はarxivの論文で確認できる
機械学習を理解したいなら、Josh Starmerの「The StatQuest Illustrated Guide to Machine Learning」を勧める
- 複雑なアイデアを明確かつ簡潔に表現する優れた教師である
- 子ども向けの本のような形式で、簡単に読んで理解できる
- 最近出版されたニューラルネットワーク関連の本もおすすめである
DNNには特別な汎化能力はない
- むしろ、SVMのような数学的に原理的な手法より汎化が弱いこともある
- UCI機械学習リポジトリの「Wine Quality」データセットでDNNを訓練すると、良くない結果と過学習が発生する
- LLMの「魔法」は訓練パラダイムから来ている
- 膨大なデータセットを使うことで、過学習なしに巨大なモデルを使える
- 10年前には「再利用性」の原則が明確ではなかった
過学習を避けるために仮説空間を制限するよりも、柔軟な仮説空間を受け入れ、データと整合する単純な解を好むことが重要である
- ディープラーニングがこれをどのように行っているのかという疑問がある
- 過去には、ペナルティを与える尤度アプローチを用いていた
- ディープラーニングでは、複雑性にペナルティを課す方法がより複雑で、直感的ではないという印象があった
ディープラーニングに初めて入門したとき、普遍近似定理の証明を学ぶことが大いに役立った
- ニューラルネットワークが関数を近似できる理由を理解すると、その上に構築されたあらゆるものを理解しやすくなる
「深い」ネットワークが必要となる興味深い例は、最近のRNNに関する論文で議論されている
- minGRUとminLSTMモデルは明示的に状態依存性をモデル化していないが、十分に深ければそれを学習できる
テキストデータを収集し、単語間の距離を保存して予測アルゴリズムを作るというアイデアがある
- この方法がGPT 2にどれほど近いのか気になる
何が「AI」と規定され、規制されるのか、その境界がどこにあるのか気になる
人工ニューロンとは、線形回帰に活性化関数を追加して非線形にしたものである
- これをネットワークとして構成すると、興味深い結果が生じる

ディープラーニングはそれほど神秘的でも特別でもない

ソフトな帰納バイアス（Soft Inductive Biases）

一般化フレームワーク（Generalization Frameworks）

PAC-Bayes と可算な仮説境界

有効次元数（Effective Dimensionality）

その他の一般化フレームワーク

主な現象

良性過学習（Benign Overfitting）

過剰パラメータ化（Overparametrization）

ダブルディセント（Double Descent）

代替的な見方（Alternative Views）

ディープラーニングの独自要素（Distinctive Features of Deep Learning）

表現学習（Representation Learning）

汎用学習（Universal Learning）

モード連結性（Mode Connectivity）

結論と展望

関連記事

1件のコメント

Hacker Newsの意見