ディープラーニングに関する科学的理論が現れるだろう
(arxiv.org)- ディープラーニングの学習過程、隠れ表現、最終重み、性能などの主要な性質を特徴づける科学的理論が形成されつつあると主張する論文
- 5つの研究の流れ(解釈可能な理想化設定、扱いやすい極限、単純な数学法則、ハイパーパラメータ理論、普遍的挙動)を中核的な根拠として提示
- この理論は学習過程のダイナミクスに焦点を当て、粗い集計統計を記述し、反証可能な定量的予測を強調
- この新しい理論フレームワークを学習過程のダイナミクス、すなわち**"learning mechanics"**という名前で提案
- deep linear network、NTK、mean-fieldやlazy-richの区別といった結果は、学習ダイナミクス、一般化、feature learning、scaling lawを定量的に扱えるようにする
- 統計的・情報理論的観点およびmechanistic interpretabilityとの共生関係を予測し、ディープラーニング理論の今後の方向性を展望
論文の中核的主張
- ディープラーニングの学習過程、隠れ表現、最終重み、性能などの重要な性質と統計を特徴づける**科学的理論(scientific theory)**が台頭しつつある
- 現在進行中のディープラーニング理論研究の主要な流れを総合し、この理論の存在を支える5つの研究方向を特定
- (a) 解釈可能な理想化設定(solvable idealized settings): 現実的なシステムの学習ダイナミクスに対する直観を与える
- (b) 扱いやすい極限(tractable limits): 根本的な学習現象への洞察を明らかにする
- (c) 単純な数学法則(simple mathematical laws): 重要な巨視的観測量(macroscopic observables)を捉える
- (d) ハイパーパラメータ理論(theories of hyperparameters): ハイパーパラメータを学習過程の残りの部分から切り離し、より単純なシステムを残す
- (e) 普遍的挙動(universal behaviors): システムや設定をまたいで共有される現象を通じて、どの現象に説明が必要かを明確にする
- 台頭中の理論を学習過程のダイナミクスとして捉えるのが最も適切であり、**"learning mechanics"**という名称を提案
- 統計的(statistical)観点、**情報理論的(information-theoretic)**観点など、ディープラーニング理論を構築するための他のアプローチとの関係を議論
- 特にlearning mechanicsとmechanistic interpretabilityの間にある共生的関係(symbiotic relationship)を予測
序論
- ディープラーニングは非常に強力だが、内部の動作原理を統一的に説明する科学的枠組みはまだ不足している
- ニューラルネットワークはさまざまなタスクで超人的性能を示すが、なぜそのように動作するのか、またどうしてその性能が出るのかについての統合理論は存在しない
- 実際の訓練方法も依然としてfirst principlesより試行錯誤に大きく依存しており、理論は日常的なディープラーニング実務での役割が限定的である
- 大規模言語モデルとdiffusion modelの時代に入り、謎はさらに深まったが、科学的ディープラーニング理論は実際に形成され始めており、その形は学習過程のmechanicsに近い
- ディープラーニング理論の焦点は時代とともに変化してきた
- 初期には、モデルがどのような関数を表現できるか、そしてデータを通じてどう学習するかが中心だった
- その後は有限サンプルでいつ一般化するかへと移り、classical learning theory、計算学習理論、PAC理論、古典最適化理論が発展した
- 同時に、単純なモデルの平均的挙動を扱うstatistical physics of machine learningの伝統も形成された
- 多層ネットワーク、backpropagation、データと計算資源の大規模化は既存理論の限界を露わにした
- ニューラルネットワークは非凸で過剰パラメータ化された構造を持ち、古典理論がうまく扱っていた単純で凸なモデルとは異なる
- 低い学習誤差を超えて構造化された内部表現を学習し、タスクやスケール全体で規則性を示す
- この変化により、ディープラーニング理論は何が可能かを数学的に問う段階から、複雑な経験的システムの挙動を記述し予測する科学的段階へと移っている
- したがって、経験的観察を受け入れ、統一原理を探し、繰り返し現れるパターンを識別する科学的アプローチが必要である
- 今後の道筋も、純粋数学分野の展開というより、一つの科学分野が成熟していく過程に近いと見る
learning mechanicsとは何か
- ニューラルネットワーク学習は、物体が空間と時間の中を動くmechanicsに似たものとして見られる
- 物体が力を受けて物理空間を連続的に移動するように、モデルは離散的な更新を通じてparameter spaceを移動する
- 物理学で力がシステム構成要素間の相互作用から生じるように、ディープラーニングでもパラメータ、データセット、タスク、学習ルールの相互作用が学習を形作る
- 物理学の場とディープラーニングのgradientの間にも対応関係がある
- 物理系が内部相互作用と外部制約で決まるpotentialの局所最小点に落ち着くように、ニューラルネットワークもアーキテクチャと学習データが作るloss landscapeの局所最小点へ収束する
- この比喩は単なるレトリックにとどまらず、現在進行中の研究の流れとも噛み合っている
- mechanicsのさまざまな分野が解釈可能な設定、単純化された極限、要約統計、システムパラメータ分析、普遍現象を活用するように、学習mechanicsも同じ道具を使う
- 特に、多くの相互作用要素を扱うcontinuum mechanicsやstatistical mechanicsのように、ディープラーニングでも個々の要素一つひとつより拡大されたレベルの統計量を説明する方法が有用である
- この研究プログラムはlearning mechanicsという名前でまとめられる
learning mechanicsに必要な7つの条件
-
根本性
- ニューラルネットワーク訓練をfirst principlesから出発して論理的に展開しなければならない
- 中間段階で重み、ダイナミクス、性能に関する仮定が道具として使われることはあり得るが、最終的にはこれもfirst principlesで説明されるべきである
-
数学性
- 重要なニューラルネットワーク特性について曖昧でない定量的記述を作らなければならない
- 質的記述だけではmechanicsは成立しない
-
予測可能性
- 簡単で再現可能な経験的測定で検証される主張を行う必要がある
- システムに対する実験的制御が非常に優れているため、主要な進展は実験で明確に検証できるものでなければならない
-
包括性
- 訓練過程、内部表現、最終重みを一つの図式でつなげなければならない
- すべての詳細を盛り込もうとするより、詳細を一部犠牲にしてでも洞察を与える適切な解像度を選ぶべきである
-
直観性
- 技術的複雑さより、単純でilluminatingな洞察を優先すべきである
- ディープラーニングの神秘を取り除くことに満足感を与える理論であるべきだ
-
有用性
- 物理学が他の工学の基礎となるように、応用ディープラーニングの科学的基盤になるべきである
- ハイパーパラメータ調整の削減、dataset designの予測ツール、AI safetyの厳密な基盤といった具体的目標が含まれる
-
謙虚さ
- 何をうまく説明でき、何を説明できないのかを明確にしなければならない
- 現実的なディープラーニングに適用可能なmechanicsでも、小規模で手作業設計の特殊なケースでは破綻し得るが、これは関心領域で単純な図式を得るための代償と見なされる
なぜlearning mechanicsが重要なのか
-
科学的理由
- 大規模ニューラルネットワークの工学的成功は、まだ理解されていない学習と表現の深い原理を活用していることを示唆する
- 技術が理論に先行した先例として、steam engineとthermodynamics、飛行機とaerodynamic theoryが挙げられる
- 人工ニューラルネットワークの学習原理はbiological intelligenceの理解にも光を当てうるもので、これはneuroscienceやcognitive scienceに含意を持ちうる
-
実用的理由
- 成熟したディープラーニング理論は、モデル設計、最適化、スケーリング、デプロイをより信頼できる原理へと導ける
- すでに一部領域では理論が役割を果たし始めている
- empirical scaling laws
- ハイパーパラメータスケーリングの数学的処方
- 理論的動機に基づいて設計されたoptimizerやdata attribution手法
- より深く完全な理論は、このような指針をさらに多く提供し、より鋭く予測的なものにできる
-
安全性に関する理由
- ますます強力になるAIシステムを記述し、特性化し、制御するには、関連する変数やメカニズム、組織原理を明確にできなければならない
- 明確に記述できない技術を規制するのは難しく、fundamental theoryはreliability、oversight、controlに必要な明確さを与えうる
- 特にmechanistic interpretabilityを支援する形でAI safetyに貢献する可能性が示されている
学習mechanicsが現れつつある証拠
- ディープラーニングの中核的構成要素は明示的で測定可能である
- アーキテクチャは、単純な線形・非線形変換の合成として定義されたニューラルネットワーク**f(x; θ)**で与えられる
- データは、未知のデータ生成分布から得られた標本集合**D = {(xi, yi)}**で与えられる
- タスクは、データセット上の性能を測る目的関数**L(θ)**で定義される
- 学習ルールは、たとえば
θ(t+1) = θ(t) −η∇L(θ(t))のようなgradientベースの更新と初期化、最適化ハイパーパラメータによって記述される
- 学習過程で隠されているものはほとんどない
- 多くの複雑系と異なり、ディープラーニングはダイナミクスを支配するequations of motionを直接露出している
- すべてのweight、activation、gradient、lossを記録でき、そこから任意の統計量も作れる
- 実験設計、再現、検証が容易で、経験的規則性の発見や理論予測の厳密な検証に有利である
- 中心的難題は不透明性ではなく複雑性にある
- architecture、data、task、learning ruleの相互作用が非線形で結合的、高次元の学習ダイナミクスを生み出す
- ハイパーパラメータ選択に敏感であり、データ分布自体も単純には特徴づけにくい
- それでもこの複雑性の下には規則性が隠れており、それを支える5つの観察が提示される
- (a) 解釈可能な理想化設定(solvable idealized settings)
- (b) 扱いやすい極限(tractable limits)
- (c) 単純な数学法則(simple mathematical laws)
- (d) ハイパーパラメータ理論(theories of hyperparameters)
- (e) 普遍的挙動(universal behaviors)
=== 論文内容省略 ===
- 追加の入門資料、観点、未解決の問いはlearningmechanics.pubで提供
- 論文は41ページ構成
2件のコメント
力学として見て解こうということですが、そもそも一般解を求められるような方程式を作れるのかどうかからして疑問ですね
Hacker Newsの意見
この分野で働く立場から見ると、この記事は今もっとも多く扱われている研究テーマをかなりうまく要約していた
特に最後のopen problemsは、事実上コアとなる研究の方向性をほぼすべて押さえていて、そこがいちばん有用だった
コメント欄に懐疑論が多いのを見ると、こうした研究が一般にはほとんど伝わっていないことがわかって残念に思う
まだ最適なネットワーク設計を数学的に直接導出するメカニズムは多くないが、それはたいてい理論より実験のほうが速く進み、事後的な説明になることが多いからだ
それでも、なぜニューラルネットワークが他のモデルよりうまく機能するのかという問いには、かなりしっかりした答えが見えつつある
問題は、人々が本当に知りたかった問いは実はそこではなかったことで、だから今は次に何を問うべきかを決める段階に見える
なぜ動くのかという問いはおおむね解けていて、核心はnoise floorに対して不可逆な情報損失を効率的に最小化することにある
数学はもっと効率のよい道を示しているのに、業界はここ数年、ただより大きなモデルを押し進めることに無駄を費やしてきた
きちんと作られた70Bモデルなら、能力低下なしにおよそ16GB級で動かし、継続学習まで可能にできるのに、資金はずっと bigger にばかり集まっていた
いま業界は目標をAgencyとLong-horizon Persistenceへ移しつつあり、予測する計算機から長く持続するシステムへの転換は、非平衡熱力学の問題により近い
ここにはAIにもそのまま適用できる数学と法則があり、モデル内で信号が持続する原理と、エージェントが持続する原理は、実質的に同じ数学へとつながっている
私の専門もまさにこうした持続性で、AI分野が他分野で既に学ばれてきた第一原理を苦労して再学習しているのを見ると、正直もどかしく感じることがある
だから数学がどう働き、それを各ドメインにどう適用するかを説明する文書を書いて共有しているのだが、それを読めば勘に頼る代わりに、何を改善すれば持続性が高まるのかを正確に理解できる
モデルを何時間働かせられるかといった問いはかわいく思えるほどで、もっと本質的な問いが別にある
古典的な観点から見ると、過剰パラメータ化や他のニューラルネットワーク構造の効果は、正直あまり腑に落ちない
double descentが経験的に機能するのは認めるが、本来ならそうなるべきではないように感じる
Hastieらの Elements が好きな立場からすると、bias-variance tradeoffだけを見てもそうした結果は出にくく思える
これはここ数年ずっと引っかかっていた点で、これに進展があるなら哲学的な意味でも非常に有用だと思う
まだ序論しか読んでいないが、文章もよく書けているし、こういう研究プログラムなら十分後押ししたい
bagging や boosting も、最初は理論抜きで経験的に先に成功したのと似ているように見える
おそらく、ニューラルネットワークが古典的に解釈可能なlinear regressionの対極にあるものとして描かれてきた影響が大きいのだろう
エンジニアリングの進みが速すぎるせいで、研究が即座に成果を出さないと待ってもらえない空気も強い
解釈可能性の研究者でさえ、目に見える結果がすぐ出ないとあまりに早く諦めてしまうことが多いように見える
非専門家でも読める参考資料があれば知りたい
画像のように従来のMLが苦手な問題群をはるかに広く扱えるのは確かだが、同等比較が可能な領域ではgradient boostingのほうが良い結果になることも多いと理解している
私が理解できないのはここだ
ニューラルネットワークのアイデア自体は何十年も前からあったのに、ほとんど注目されないまま、2017年のAttention Is All You Need以降にディープラーニングが爆発的に伸びた
GPUがディープラーニングを加速するのはわかるが、transformer という概念自体は、もっと遅いハードウェアでも以前から試せたのではないかと思う
AlexNet は https://en.wikipedia.org/wiki/AlexNet のとおり、ImageNet分類コンテストで従来とは桁違いの性能向上を示し、その後主要なML画像研究室はすべて deep CNN に乗り換えた
数年のうちに他のアプローチはSOTA画像コンテストからほぼ消え、その後ディープニューラルネットワークは他のML分野まで席巻した
通説は結局二つの組み合わせだ
一つは過去より圧倒的に大きくなった計算量で、もう一つは手作業で整備・ラベル付けされた ImageNet のような、はるかに大規模で高品質なデータセットだ
attention は、テキストのように比較的自由な順序構造を持つシーケンスで複雑な関係を学ぶのに特に有用だったが、今では多くの人がアーキテクチャを、学習そのものの本質というより、データとコンピュートが不足しているときのtradeoff の選択肢程度に見ている
結局は https://en.wikipedia.org/wiki/Bitter_lesson のように、より多くのコンピュートとより多くのデータが、うまくスケールしないより賢いモデルに勝つことが多い
人間はおよそ10^11個のニューロン、犬は10^9、マウスは10^7ほどを持つが、ここで目立つのはどれもとてつもなく大きい数だという点だ
マウスのような限定的な知能ですら数億個のニューロンが必要で、知能はある程度以上の計算容量を超えて初めて現れるように見える
おそらく、複雑な学習環境の本質的な複雑さを扱うには多くのパラメータが必要だからだろう
一方で、単純だったり定型的だったりする問題では、少ないパラメータでもうまく機能し、あるいは最適だと証明されている手法も多い
私たちが言う学習や知能はたいてい複雑な環境を前提としており、そうした複雑性は本質的に大量のパラメータを要求する
それがコンテストを圧倒し、数年のうちに画像タスクでは事実上その手法が標準になった
たしか Jeremy Howard だったと思うが、2017年ごろに、画像で convnet が成し遂げたのと同じくらいNLPでも効くtransfer learningがいつ現れるのかと書いた文章があった
その年に attention 論文がすぐ世界を支配したわけではなく、当時はハードウェアも不十分で、スケールがすべてを解決するという合意もなかった
GPT-3が登場するまでさらにほぼ5年かかり、そこで初めて今の波が始まった
そして、こうした怪物を学習させるのに必要なcompute 規模を過小評価する人が多いが、1GHzの単一プロセッサ1個では、このクラスのモデル1つを訓練するのにおよそ1億年かかる
GPT-3級のモデルでも2万5000個規模のGPUを使って数か月かかり、10年前のGPUの乏しいメモリでは大規模 transformer の学習は事実上不可能だった
昔の k80 は12GB程度だったが、今の H100/H200 は数百GB級であり、大きな transformer は2020年代初頭以前には実際には作れなかったと考えるべきだ
2010年代後半に、ゲーマーたちがMLのせいでGPU価格が高騰していると不満を言っていたのも思い出す
興味深いのは、それ以前はニューラルネットワークがたいして重要でないものとして扱われていた点だ
私が2000年ごろに関連授業を受けたときも、おおむねそんな雰囲気だった
再び火がつくには、結局ImageNetのような膨大な学習データと高速なプロセッサがそろう必要があったようだ
その後は特定アーキテクチャに対する後続の発展が続き、雪だるま式に大きくなっていった
広いコミュニティでは AlexNet が大きな分岐点に見えるが、学界内部ではそれより2〜3年前から流れが変わっていた
ワークショップでニューラルネットワーク関連の発表がもう無視されなくなったのを、2008〜09年ごろから見始めた
行列自体は400年前からあったが、線形代数学、特に数値線形代数が爆発したのはコンピュータ登場後だった
以前は連立方程式を minors 理論で解くのが定石だったが、コンピュータの登場で Gaussian elimination や Krylov 空間の理論が大きく発展した
人々は想像していても、ハードウェアがなくて実装できなかっただけだ
単純化して言えば、LLMは結局 transformer に膨大な量のデータを組み合わせたもので、その規模のデータを実際に学習可能にするには十分に強力なハードウェアが不可欠だった
一つの学習ツールである脳で、別の学習ツールを理解しようとしている点が興味深い
SGD はすでに十分うまく機能しており、それを数倍良くしたところで、ブラックボックスが実際に何をしているのかという根本的な問いが解決するとは限らない
どう学習するかと、モデルが実際に何をしているかは別問題だが、私たちの脳もまた多くの点でブラックボックスだからだ
だから学習メカニズム研究と心理学、そして思考と言語の本性に関する哲学的アイデアをつなぐ橋がもっと必要に思えた
これは心強いが、タイトルは少し大げさだと思う
ディープラーニングが実際に何をしているのかを理解するための攻め口くらいのほうが正確だっただろうが、目を引きにくかったはずだ
ディープラーニングシステムがいつハルシネーションを生み出すのかを測定する方法につながるなら、非常に大きな価値がある
それができるまでは、ディープラーニングシステムは、でたらめを言っても被害が小さい作業にしか限定的に使えない
たとえば hallucination という言葉自体が、LLMの出力に人間的な意味を無理に与えてしまう
実際の数学的な動作原理から見れば、ハルシネーションも単なる一つの出力にすぎず、それと他の出力とのあいだに明確な境界は定義されていない
私の主たる研究テーマでもあるので、バイアスはあるかもしれない
よくあるアプローチはOOD detectionだが、私はそもそも問題設定自体が不安定だと感じてきた
そこで同僚たちと一緒に、モデルのmisspecificationの測定という、より根本的なアプローチを試しているが、計算コストが高すぎて、まだニッチな話題に近い
どちらの方向にせよ、ブレークスルーが出るまでにはまだ時間がかかりそうだ
これを見ると、vibecodingと概念的に似ている気がする
とにかく何かを動くようにして、そのあとでなぜ動くのか、どう動いているのかを理解するのはまた別の作業だ
ちょっと待って、まだ理解もできていないし、きちんと説明もできないものを作っておいて、今さらそれをscienceと呼ぶのか?
何十年も前から生物学、とくに神経生物学の用語を借りてきたし、結局は猿まねの copy paste の面もあるように見える
正直に言うと、こうした一般理論の試み二つのほうがもっと興味深かった
https://arxiv.org/abs/2510.12269
https://www.mdpi.com/1099-4300/28/3/332
fuzzy logicとのつながりも気になる
ニューラルネットワークは曖昧な仕方で推論しているように見えるが、それを形式的に何と呼べばよいのかよくわからない
fuzzy reasoning を形式化しようとする試みは何年も続いてきたのに、今では誰も気にしていないようだ
私の感覚では、ニューラルネットワークと transformer はMLにおけるOOPのようなものだ
とても人気があり、実務でもかなりうまく機能するが、根本はまだ不透明で、昔から表現できたものを新しい言語で言い換えている感覚があり、正確にどこで利得が生まれているのかを特定しにくい
まだ論文を全部読んではいないが、文章が本当に引き込まれるようにうまく書かれていて、かなり思慮深いと感じた
咀嚼すべき内容は非常に多いが、こうした話が一か所にまとまっているのを見るのはとても興味深い
ディープラーニングが高いレベルでうまく機能する理由は、結局のところより多くのデータで学び続ける能力が他のアプローチより優れているからだと思う
しかし、今のような膨大な量のデータがなければ、アーキテクチャはそれほど重要ではなかっただろう
モデルとデータの方程式の両側を一緒に説明できなければ、たとえば reasoning モデルがなぜ推論するのかといった問いに対して、堅固な科学理論を築くのは難しいと感じる
モデルはアーキテクチャと学習データが一緒に作り出した産物だ
今のこの問題は、人間や動物が膨大な入力データの中からどうやって特定のことを学ぶのかを説明するのと同じくらい、まだ見通しが立っていないように思える
経験的理解はさらに進むだろうが、根本は再びコンピュータサイエンスへ還元できないのかもしれない
真の複雑性の核心はアーキテクチャよりギガデータセットの側にあると思う
理論は失敗モードの予測が必要になる瞬間に決定的に重要になる
たいていはそこそこ当たるが、edge case で静かに壊れる意思決定支援システムは、限界が明確なもっと単純なシステムよりむしろ危険だ
バイアスのメカニズムを理解すれば、モデルがいつ本当に確信しているのか、いつ単にpattern matchingしているだけなのかを見分ける助けになる
この違いは stakes の大きい環境でとりわけ重要だ