ディープラーニングの科学理論は登場するだろう

(arxiv.org)

24 ポイント投稿者 GN⁺ 4 일 전 | 1件のコメント | WhatsAppで共有

ディープラーニングの学習過程の mechanics は、ニューラルネットワーク訓練をパラメータ、データ、課題、学習規則の相互作用が生み出すダイナミクスとして扱い、統合された 科学的理論 の形として定着し始めている
核心的な難題は不透明性よりも 複雑性 にあり、ニューラルネットワークは非凸・過剰パラメータ化構造と構造化された内部表現の学習のため、既存の古典理論だけでは十分に説明できない
解析可能な設定、無限幅・深さ極限、単純な経験則、ハイパーパラメータ理論、普遍現象といった軸で繰り返し規則性が現れ、学習 mechanics の基盤が積み上がっている
deep linear network、NTK、mean-field や lazy-rich の区別といった結果は、学習ダイナミクス、汎化、feature learning、scaling law を定量的に扱えるようにしている
こうした理論は、モデル設計と最適化、ハイパーパラメータ選択、AI safety と mechanistic interpretability に至るまで、より予測可能で制御可能な基盤を与えるうえで重要である

序論

ディープラーニング は非常に強力だが、その内部動作原理を統合的に説明する科学的枠組みはまだ不足している
- ニューラルネットワークはさまざまな作業で人間を超える性能を示すが、なぜそのように動作するのか、そしてどうしてそのような性能が出るのかについての 統合理論 は存在しない
- 実際の訓練方法もなお first principles より試行錯誤に大きく依存しており、理論は日常的なディープラーニング実務での役割が限定的である
大規模言語モデルと diffusion model の時代に入り、謎はさらに深まったが、科学的ディープラーニング理論 は実際に形成され始めており、その形は 学習過程の mechanics に近い
ディープラーニング理論の焦点は時間とともに変化してきた
- 初期には、モデルがどのような関数を表現できるか、そしてデータからどのように学習するかが中心だった
- その後、有限サンプルでいつ汎化するのかへと移り、classical learning theory、計算学習理論、PAC 理論、古典最適化理論が発展した
- 同時に、単純なモデルの平均的挙動を扱う statistical physics of machine learning の伝統も形成された
多層ネットワーク、backpropagation、データと計算資源の大規模化は、既存理論の限界を露わにした
- ニューラルネットワークは非凸、過剰パラメータ化 された構造を持ち、古典理論がよく扱っていた単純で凸なモデルとは異なる
- 低い学習誤差を超えて 構造化された内部表現 を学習し、課題とスケール全般にわたって規則性を示す
この変化によって、ディープラーニング理論は何が可能かを数学的に問う段階から、複雑な経験的システムの挙動を記述し予測する科学的段階へと移っている
- したがって、経験的観察を包摂し、統合原理を見いだし、繰り返し現れるパターンを識別する 科学的アプローチ が必要である
- 今後の道筋も、純粋数学の分野として展開するというより、一つの科学分野が成熟していく過程に近いとみられる

learning mechanicsとは何か

ニューラルネットワーク学習は、物体が空間と時間の中を動く mechanics と類似しているとみなせる
- 物体が力を受けて物理空間を連続的に移動するように、モデルは離散的更新を通じて parameter space を移動する
- 物理学で力がシステム構成要素間の相互作用から生じるように、ディープラーニングでもパラメータ、データセット、課題、学習規則の相互作用が学習を形作る
物理学の場とディープラーニングの gradient の間にも対応関係がある
- 物理系が内部相互作用と外部制約によって決まる potential の局所最小点に落ち着くように、ニューラルネットワークもアーキテクチャと学習データが作る loss landscape の局所最小点へ収束する
この比喩は単なるレトリックにとどまらず、現在進行中の研究潮流とも重なっている
- mechanics のさまざまな分野が 解析可能な設定、単純化された極限、要約統計量、システムパラメータ分析、普遍現象 を活用するように、学習 mechanics も同じ道具を使う
- とくに、多くの相互作用要素を扱う continuum mechanics や statistical mechanics のように、ディープラーニングでも個々の要素一つひとつより、拡大されたレベルの統計量を説明する方法が有用である
この研究プログラムは learning mechanics という名前でまとめることができる

learning mechanicsに必要な7つの条件

根本性
- ニューラルネットワーク訓練を first principles から出発して論理的に展開しなければならない
- 中間段階で重み、ダイナミクス、性能に関する仮定が道具として使われることはありうるが、最終的にはこれも first principles で説明されるべきである
数学性
- 重要なニューラルネットワーク特性について、曖昧でない 定量的記述 を作らなければならない
- 質的記述だけでは mechanics は成立しない
予測可能性
- 簡単で再現可能な経験的測定で検証される主張を行わなければならない
- システムに対する実験的制御が非常に優れているため、主要な進展は実験によって明確に検証できるべきである
包括性
- 訓練過程、内部表現、最終重みを一つの図式として結びつけなければならない
- すべての詳細を盛り込もうとするのではなく、詳細をある程度犠牲にしてでも洞察を与える 適切な解像度 を選ぶべきである
直観性
- 技術的複雑さよりも、単純で illuminating な洞察を優先すべきである
- ディープラーニングの神秘を取り払うことに満足感を与える理論であるべきだ
有用性
- 物理学が他の工学の基礎となるように、応用ディープラーニングの科学的基盤にならなければならない
- ハイパーパラメータチューニングの削減、dataset design の予測ツール、AI safety の厳密な基盤 のような具体的目標が含まれる
謙虚さ
- 何をうまく説明でき、何を説明できないのかを明確にしなければならない
- 現実的なディープラーニングに適用可能な mechanics であっても、小さく手作業で設計された特殊なケースでは破綻しうるが、これは関心領域で単純な図式を得るための代償とみなされる

なぜlearning mechanicsが重要なのか

科学的理由
- 大規模ニューラルネットワークの工学的成功は、まだ理解されていない 学習と表現の深い原理 を活用していることを示唆している
- 技術が理論に先行した先例として、steam engine と thermodynamics、飛行機と aerodynamic theory が挙げられる
- 人工ニューラルネットワークの学習原理は biological intelligence を理解するうえでも示唆を与えうるし、これは neuroscience と cognitive science に含意を持ちうる
実用的理由
- 成熟したディープラーニング理論は、モデル設計、最適化、スケーリング、デプロイをより信頼できる原理へと導ける
- すでに一部の領域では理論が役割を果たし始めている
  - empirical scaling laws
  - ハイパーパラメータスケーリングの数学的処方
  - 理論的動機に基づいて設計された optimizer と data attribution の手法
- より深く完全な理論は、このような指針をさらに多く提供し、それらをより鋭く、より予測的なものにできる
安全性に関する理由
- ますます強力になる AI システムを記述し、特性化し、制御するには、関連する変数、メカニズム、組織原理を明確にできなければならない
- 明確に記述できない技術を規制することは難しく、fundamental theory は reliability、oversight、control に必要な明晰さを与えうる
- とくに mechanistic interpretability を支える形で AI safety に貢献する可能性が指摘されている

学習 mechanics が現れつつある証拠

ディープラーニングの中核構成要素は明示的で測定可能である
- アーキテクチャは、単純な線形・非線形変換の合成として定義されるニューラルネットワーク f(x; θ) で与えられる
- データは、未知のデータ生成分布から得られた標本集合 D = {(xi, yi)} として与えられる
- 課題は、データセット上の性能を測る目的関数 L(θ) によって定義される
- 学習規則は、たとえば θ(t+1) = θ(t) −η∇L(θ(t)) のような gradient ベースの更新と、初期化、最適化ハイパーパラメータによって記述される
学習過程で隠されているものはほとんどない
- 多くの複雑系と異なり、ディープラーニングは動力学を支配する equations of motion を直接さらけ出している
- すべての weight、activation、gradient、loss を記録でき、そこから任意の統計量も作れる
- 実験設計、再現、検証が容易で、経験的な規則性の発見や理論予測の厳密な検証に有利である
中心的な難問は不透明性ではなく複雑性にある
- architecture、data、task、learning rule の相互作用が、非線形、結合的、高次元的な学習ダイナミクスを生み出す
- ハイパーパラメータの選択に敏感であり、データ分布自体も単純には特徴づけにくい
それでもこの複雑性の下には規則性が潜んでおり、それを裏づける5つの観察が提示される
- 解析的に解ける設定
- 洞察を与える極限
- 単純な経験則
- ハイパーパラメータ理論
  - 普遍的現象

解析的に解ける設定

複雑なシステムでは、単純化されてはいても代表性のある設定で定量計算が可能になると、科学的理解は急速に進む
- 物理学における harmonic oscillator や hydrogen atom のように、ディープラーニングでも最小モデルが、より現実的なシステムを見る際の直観を与える
- ディープラーニングはとりわけこのアプローチに適しており、学習ダイナミクスが単純化され、重要な量を計算可能な設定が数多く見つかっている
データに対する線形化
- deep linear network は非線形性を取り除くことで、入力 x に対しては線形だが、パラメータ θ に対しては依然として高度に非線形なモデルになる
- このようなモデルは単純に見えても、ディープラーニング特有の振る舞いを保っている
  - saddle-point-dominated loss landscape
  - 明確な phase transition と分離した時間スケールを持つダイナミクス
  - gradient descent における edge-of-stability oscillation
  - 初期化に大きく依存する inductive bias
- 解析は通常、gradient descent の連続時間極限である gradient flow の下で行われ、データ分布と初期化に単純化した仮定を置くと、厳密解または低次元ダイナミクス系へと還元される
- 繰り返し現れる核心は greedy low-rank bias である
  - 学習は、課題のある成分を別の成分より先に獲得する
  - [Saxe et al. 2014] の結果では、入力-出力相関の singular vector を順次学習し、singular value の大きいモードが先に学習される
  - このバイアスは signal と noise を分離し、汎化に役立ちうることと結びつけられている
  - 非線形ネットワークでも、単純な関数が複雑な関数より先に学習される現象と似ている
- 小さな初期化、より深い深さ、より強い mini-batch noise、明示的な ℓ2 regularization は、この greedy bias をさらに強めることが整理されている
パラメータに対する線形化
- linearized network は、初期パラメータ近傍での Taylor 展開から非線形項を切り落として得られるもので、データ x に対しては非線形だが、パラメータ θ に対しては線形になる
- 特定の設定では、元のモデルが訓練全体を通じてこの線形化でよく近似され、この場合、学習ダイナミクスは事実上、線形回帰と同一になる
- 違いは、Gram kernel の代わりに neural tangent kernel, NTK がダイナミクスを支配する点にある
- least squares と小さな step size の gradient descent では、最終的な予測器は NTK を用いた kernel ridge regression で与えられ、解釈可能性が高まる
- この設定は、アーキテクチャが NTK 構造を通じて inductive bias をどのように決定するかを明らかにする
- 入力データの構造まで考慮すれば、任意のターゲット関数に対する期待汎化誤差も予測でき、Figure 1 の結果もこうした予測と実験がよく一致することを示している
- また double descent と scaling laws も捉えられる
- ただし、現実性と限界も明確である
  - generic neural network の強い feature learning を捉えられない
  - 標本複雑性について過度に悲観的な予測を生むことがある
  - 学習を線形問題に変えてしまうことで、ディープラーニング特有の非凸最適化現象を回避してしまう
線形化を超えて
- 理論の重要な前線は、データとパラメータの両方に対して真に非線形な toy model を解析可能にすることにある
- ここではデータ分布の影響がはるかに複雑になるため、単一の統一的な枠組みを築くのは難しいが、複数の方向で進展が見られる
- Gaussian 入力と構造化されたターゲットを持つ single-index、multi-index model 系では、fully nonlinear neural network が kernel method より少ないサンプルでうまく機能する
  - ターゲット関数の構造を活用して relevant feature を学習するためである
- statistical physics の手法は、このようなモデルにおける Bayes-optimal inference と学習ダイナミクスの正確な漸近的挙動も計算可能にする
- quadratic activation を持つ2層ニューラルネットワークでは、正確な漸近、訓練ダイナミクス、scaling laws まで特徴づけられている
- そのほかにも、さまざまな非線形現象が切り分けて解析されている
  - logistic loss で学習した homogeneous network が max-margin solution に収束する現象
  - teacher-student model において訓練ダイナミクスが低次元の要約統計へ還元される現象
  - associative memory model の memorization
  - modular arithmetic task で学習されるアルゴリズム的構造
  - attention の非線形な解析可能モデル
  - 非線形 feature learning がより良い scaling law を生む場合
- 現在の非線形 toy model は、それぞれが完全な非線形学習の一側面を捉えているが、まだ統合フレームワークは現れていない

洞察を与える極限

現代のディープラーニングシステムは数百億個以上のパラメータと膨大なデータから成り、個々のパラメータを追跡する微視的理論はほぼ不可能に見える
しかし複雑系はしばしば、サイズを事実上無限大へ送る極限で単純化され、この単純な構造が実際の有限系にも有益な洞察を与える
- 理想気体の法則が無限粒子数極限で導かれるが、実際の有限な気体にもよく当てはまるのと同じ論理である
- ディープラーニングでも極限は複雑性を扱う中核的な数学的道具であり、その反復的な成功自体が emerging theory の強い証拠として提示される
無限幅極限と lazy-rich 二分法
- hidden layer のニューロン数を無限大へ送ると、個々のニューロンではなくニューロン集団全体の分布の進化だけを見ればよい mean-field behavior が現れる
- ただし深い層の activation の発散を防ぐには、幅が大きくなるほど初期化スケールを下げる必要があり、この減衰率に応じて異なる2種類の極限ダイナミクスが現れる
- lazy または kernel または linearized regime
  - 初期化時に各パラメータの大きさを [width]−1/2 に縮小すると、hidden neuron への入力は消失も暴走もしない
  - このようなネットワークを訓練すると、weight と hidden representation はほとんど変化しないが、その小さな変化が蓄積して出力関数は大きく変わる
  - 結果として学習ダイナミクスはパラメータに対して線形となり、出力関数の進化は全面的に NTK で表現される
  - 解析可能性は高いが hidden representation がほとんど変化しないため、feature learning は示さない
  - この極限は後に lazy という名前で整理された
- rich または active または feature-learning regime
  - 最終層の重みを [width]−1 へさらに強く縮小すると、モデルが学習中により大きく変化する必要があるため、feature learning が可能な別の極限が生じる
  - この場合、初期出力は無限幅で 0 になるが、訓練中には各 gradient step ごとに order-one の水準まで意味のある成長を示しうる
  - shallow mean-field network で始まったこのアイデアは arbitrary depth のネットワークへ拡張され、関連するスケーリングは Maximal Update Parameterization, µP と結び付けられる
  - いまでは infinite-width network でも feature を学習できるという点が広く受け入れられている
- rich regime で現れる挙動
  - hidden feature は時間とともに変化し、入力データの構造に適応する
  - 内部表現の geometry は訓練中に変化する
  - ニューロンの部分集団が異なる潜在 feature に特化する
  - 最適予測が高次元データの低次元部分空間にあるとき、第1層の重み分布はその関心部分空間を増幅する方向へ進化する
  - 初期化スケールをさらに小さくすると、前述の greedy low-rank bias がしばしば再び現れる
- 有限幅でも現れる lazy-rich 遷移
  - 出力スケールを下げると feature learning が促進され、rich regime 側へ移動する
  - 出力スケールを上げると訓練ダイナミクスがより線形化され、lazy behavior が現れる
  - 同じ有限ネットワークでも出力スケールに応じて lazy または rich な学習を示し、Figure 2 がこの違いを可視化している
無限深さ極限と他のハイパーパラメータ極限
- deep residual network では各層の寄与を適切に抑えることで、安定した infinite depth limit に到達できる
- 各層を [depth]−1 で抑えると、residual stream が深さに応じて滑らかに変化する極限が現れ、これは Neural ODE を想起させる
- 各層を [depth]−1/2 で抑えると、residual stream がまるで確率微分方程式に駆動されるかのように拡散する極限が現れる
- これら2つの極限は transformer のような現実的アーキテクチャで質的に異なる解へ収束し、どちらがより重要かはまだ明らかではない
他のサイズ極限
- recurrent architecture では feedforward layer 数の代わりに recurrent 構造の無限極限を解析できる
- 最新の transformer には multi-head self-attention や mixture-of-expert MLP のような、より表現力の高いブロックが含まれる
  - attention には head count、head size、context length という複数のスケール方向がある
  - mixture-of-expert には expert count、expert size、sparsity という複数のスケール方向がある
- こうした異なる無限極限の相互作用を明確にすることは、現代の実務との接点を作り、初期化と最適化に関するハイパーパラメータを切り分けて理解するうえで重要である

表と図から見える要約

Table 1 は、ディープラーニングの中核的研究ツールが物理学のツールと密接に似ていることを整理している
- solvable settings は deep linear network、kernel regression、multi-index model に対応し、物理学では harmonic oscillator、hydrogen atom、Ising model に対応する
- simplifying limits は lazy vs rich learning、幅と深さの無限極限、small initialization と結び付き、物理学では thermodynamic limit、classical limit、hydrodynamic limit と並置される
- simple empirical laws は neural scaling laws、edge of stability、neural feature ansatz として現れ、物理学の Kepler、Snell、Boyle、Hooke、Newton、Faraday、Ohm、Poiseuille、Planck、Hubble などの法則と並べられる
- system parameters 研究 は step size を sharpness regularization とみなす観点、µP と width scaling に結び付き、物理学の scaling analysis、nondimensionalization、chaotic vs ordered regime と似た形で整理される
- universal phenomena はモデル全体に共通して現れる inductive bias と representation として現れ、物理学の critical phenomena、renormalization group flow に対応する
Figure 1 は、線形化が 正確な解 を与え、実験ともよく一致することを強調している
- deep linear network では、task-aligned initialization と whitened input のもとで singular mode が順次学習される
- nonlinear network を初期化点で Taylor 展開して線形化すると、NTK を通じた kernel ridge regression に還元され、テスト性能予測が CIFAR-5m の複数の二値分類課題で実験と近く一致する
Figure 2 は、大きい出力倍率と小さい出力倍率だけでも lazy と rich の訓練ダイナミクスを導けることを示している
- 同じ shallow student network でも α = 0.1 のときは student weight が大きく動き、teacher feature 方向の周辺へ集まって rich dynamics を示す
- α = 30 のときは loss は下がるが student weight はほとんど動かず、lazy dynamics を示す

1件のコメント

GN⁺ 4 일 전

Hacker Newsの意見

この分野で働く立場から見ると、この記事は今もっとも多く扱われている研究テーマをかなりうまく要約していた
特に最後のopen problemsは、事実上コアとなる研究の方向性をほぼすべて押さえていて、そこがいちばん有用だった
コメント欄に懐疑論が多いのを見ると、こうした研究が一般にはほとんど伝わっていないことがわかって残念に思う
まだ最適なネットワーク設計を数学的に直接導出するメカニズムは多くないが、それはたいてい理論より実験のほうが速く進み、事後的な説明になることが多いからだ
それでも、なぜニューラルネットワークが他のモデルよりうまく機能するのかという問いには、かなりしっかりした答えが見えつつある
問題は、人々が本当に知りたかった問いは実はそこではなかったことで、だから今は次に何を問うべきかを決める段階に見える
- 今はディープラーニングの情報理論的基盤が急速に固まりつつある奇妙な時期だと思う
  なぜ動くのかという問いはおおむね解けていて、核心はnoise floorに対して不可逆な情報損失を効率的に最小化することにある
  数学はもっと効率のよい道を示しているのに、業界はここ数年、ただより大きなモデルを押し進めることに無駄を費やしてきた
  きちんと作られた70Bモデルなら、能力低下なしにおよそ16GB級で動かし、継続学習まで可能にできるのに、資金はずっと bigger にばかり集まっていた
  いま業界は目標をAgencyとLong-horizon Persistenceへ移しつつあり、予測する計算機から長く持続するシステムへの転換は、非平衡熱力学の問題により近い
  ここにはAIにもそのまま適用できる数学と法則があり、モデル内で信号が持続する原理と、エージェントが持続する原理は、実質的に同じ数学へとつながっている
  私の専門もまさにこうした持続性で、AI分野が他分野で既に学ばれてきた第一原理を苦労して再学習しているのを見ると、正直もどかしく感じることがある
  だから数学がどう働き、それを各ドメインにどう適用するかを説明する文書を書いて共有しているのだが、それを読めば勘に頼る代わりに、何を改善すれば持続性が高まるのかを正確に理解できる
  モデルを何時間働かせられるかといった問いはかわいく思えるほどで、もっと本質的な問いが別にある
- それが本当なら本当にうれしい話だ
  古典的な観点から見ると、過剰パラメータ化や他のニューラルネットワーク構造の効果は、正直あまり腑に落ちない
  double descentが経験的に機能するのは認めるが、本来ならそうなるべきではないように感じる
  Hastieらの Elements が好きな立場からすると、bias-variance tradeoffだけを見てもそうした結果は出にくく思える
  これはここ数年ずっと引っかかっていた点で、これに進展があるなら哲学的な意味でも非常に有用だと思う
  まだ序論しか読んでいないが、文章もよく書けているし、こういう研究プログラムなら十分後押ししたい
  bagging や boosting も、最初は理論抜きで経験的に先に成功したのと似ているように見える
- ニューラルネットワークを理解しようとする研究について、最初からblack boxだから理解不可能だと決めつける人が本当に多くて、いつも驚かされる
  おそらく、ニューラルネットワークが古典的に解釈可能なlinear regressionの対極にあるものとして描かれてきた影響が大きいのだろう
  エンジニアリングの進みが速すぎるせいで、研究が即座に成果を出さないと待ってもらえない空気も強い
  解釈可能性の研究者でさえ、目に見える結果がすぐ出ないとあまりに早く諦めてしまうことが多いように見える
- なぜニューラルネットワークは他のモデルよりうまく機能するのかという問いは興味深い
  非専門家でも読める参考資料があれば知りたい
- ニューラルネットワークが本当に他のモデルより優れていると断言できるかはわからない
  画像のように従来のMLが苦手な問題群をはるかに広く扱えるのは確かだが、同等比較が可能な領域ではgradient boostingのほうが良い結果になることも多いと理解している
私が理解できないのはここだ
ニューラルネットワークのアイデア自体は何十年も前からあったのに、ほとんど注目されないまま、2017年のAttention Is All You Need以降にディープラーニングが爆発的に伸びた
GPUがディープラーニングを加速するのはわかるが、transformer という概念自体は、もっと遅いハードウェアでも以前から試せたのではないかと思う
- 本当の変曲点は2012年のAlexNetだった
  AlexNet は https://en.wikipedia.org/wiki/AlexNet のとおり、ImageNet分類コンテストで従来とは桁違いの性能向上を示し、その後主要なML画像研究室はすべて deep CNN に乗り換えた
  数年のうちに他のアプローチはSOTA画像コンテストからほぼ消え、その後ディープニューラルネットワークは他のML分野まで席巻した
  通説は結局二つの組み合わせだ
  一つは過去より圧倒的に大きくなった計算量で、もう一つは手作業で整備・ラベル付けされた ImageNet のような、はるかに大規模で高品質なデータセットだ
  attention は、テキストのように比較的自由な順序構造を持つシーケンスで複雑な関係を学ぶのに特に有用だったが、今では多くの人がアーキテクチャを、学習そのものの本質というより、データとコンピュートが不足しているときのtradeoff の選択肢程度に見ている
  結局は https://en.wikipedia.org/wiki/Bitter_lesson のように、より多くのコンピュートとより多くのデータが、うまくスケールしないより賢いモデルに勝つことが多い
  人間はおよそ10^11個のニューロン、犬は10^9、マウスは10^7ほどを持つが、ここで目立つのはどれもとてつもなく大きい数だという点だ
  マウスのような限定的な知能ですら数億個のニューロンが必要で、知能はある程度以上の計算容量を超えて初めて現れるように見える
  おそらく、複雑な学習環境の本質的な複雑さを扱うには多くのパラメータが必要だからだろう
  一方で、単純だったり定型的だったりする問題では、少ないパラメータでもうまく機能し、あるいは最適だと証明されている手法も多い
  私たちが言う学習や知能はたいてい複雑な環境を前提としており、そうした複雑性は本質的に大量のパラメータを要求する
- ディープラーニングのより早い大勝利は、実際には2012年のAlexNetによる画像認識だった
  それがコンテストを圧倒し、数年のうちに画像タスクでは事実上その手法が標準になった
  たしか Jeremy Howard だったと思うが、2017年ごろに、画像で convnet が成し遂げたのと同じくらいNLPでも効くtransfer learningがいつ現れるのかと書いた文章があった
  その年に attention 論文がすぐ世界を支配したわけではなく、当時はハードウェアも不十分で、スケールがすべてを解決するという合意もなかった
  GPT-3が登場するまでさらにほぼ5年かかり、そこで初めて今の波が始まった
  そして、こうした怪物を学習させるのに必要なcompute 規模を過小評価する人が多いが、1GHzの単一プロセッサ1個では、このクラスのモデル1つを訓練するのにおよそ1億年かかる
  GPT-3級のモデルでも2万5000個規模のGPUを使って数か月かかり、10年前のGPUの乏しいメモリでは大規模 transformer の学習は事実上不可能だった
  昔の k80 は12GB程度だったが、今の H100/H200 は数百GB級であり、大きな transformer は2020年代初頭以前には実際には作れなかったと考えるべきだ
  2010年代後半に、ゲーマーたちがMLのせいでGPU価格が高騰していると不満を言っていたのも思い出す
- 他の人たちも言っているように、関心の爆発はdeep convolutional networksが画像問題で効いたことから始まった
  興味深いのは、それ以前はニューラルネットワークがたいして重要でないものとして扱われていた点だ
  私が2000年ごろに関連授業を受けたときも、おおむねそんな雰囲気だった
  再び火がつくには、結局ImageNetのような膨大な学習データと高速なプロセッサがそろう必要があったようだ
  その後は特定アーキテクチャに対する後続の発展が続き、雪だるま式に大きくなっていった
  広いコミュニティでは AlexNet が大きな分岐点に見えるが、学界内部ではそれより2〜3年前から流れが変わっていた
  ワークショップでニューラルネットワーク関連の発表がもう無視されなくなったのを、2008〜09年ごろから見始めた
- 同じようなことは行列でもあった
  行列自体は400年前からあったが、線形代数学、特に数値線形代数が爆発したのはコンピュータ登場後だった
  以前は連立方程式を minors 理論で解くのが定石だったが、コンピュータの登場で Gaussian elimination や Krylov 空間の理論が大きく発展した
- 遅いハードウェアでも transformer という概念自体はもっと早く使えた気はするが、小さなスケールでは同じ結果は出ない
  人々は想像していても、ハードウェアがなくて実装できなかっただけだ
  単純化して言えば、LLMは結局 transformer に膨大な量のデータを組み合わせたもので、その規模のデータを実際に学習可能にするには十分に強力なハードウェアが不可欠だった
一つの学習ツールである脳で、別の学習ツールを理解しようとしている点が興味深い
SGD はすでに十分うまく機能しており、それを数倍良くしたところで、ブラックボックスが実際に何をしているのかという根本的な問いが解決するとは限らない
どう学習するかと、モデルが実際に何をしているかは別問題だが、私たちの脳もまた多くの点でブラックボックスだからだ
だから学習メカニズム研究と心理学、そして思考と言語の本性に関する哲学的アイデアをつなぐ橋がもっと必要に思えた
これは心強いが、タイトルは少し大げさだと思う
ディープラーニングが実際に何をしているのかを理解するための攻め口くらいのほうが正確だっただろうが、目を引きにくかったはずだ
ディープラーニングシステムがいつハルシネーションを生み出すのかを測定する方法につながるなら、非常に大きな価値がある
それができるまでは、ディープラーニングシステムは、でたらめを言っても被害が小さい作業にしか限定的に使えない
- この分野の大きな障害は、LLMに付きまとう希望的なニーモニックと擬人化だと思う
  たとえば hallucination という言葉自体が、LLMの出力に人間的な意味を無理に与えてしまう
  実際の数学的な動作原理から見れば、ハルシネーションも単なる一つの出力にすぎず、それと他の出力とのあいだに明確な境界は定義されていない
- ディープラーニングシステムがハルシネーションを起こす時点を測定するのは、本当に解く価値の大きい問題だ
  私の主たる研究テーマでもあるので、バイアスはあるかもしれない
  よくあるアプローチはOOD detectionだが、私はそもそも問題設定自体が不安定だと感じてきた
  そこで同僚たちと一緒に、モデルのmisspecificationの測定という、より根本的なアプローチを試しているが、計算コストが高すぎて、まだニッチな話題に近い
  どちらの方向にせよ、ブレークスルーが出るまでにはまだ時間がかかりそうだ
これを見ると、vibecodingと概念的に似ている気がする
とにかく何かを動くようにして、そのあとでなぜ動くのか、どう動いているのかを理解するのはまた別の作業だ
ちょっと待って、まだ理解もできていないし、きちんと説明もできないものを作っておいて、今さらそれをscienceと呼ぶのか？
何十年も前から生物学、とくに神経生物学の用語を借りてきたし、結局は猿まねの copy paste の面もあるように見える
正直に言うと、こうした一般理論の試み二つのほうがもっと興味深かった
https://arxiv.org/abs/2510.12269
https://www.mdpi.com/1099-4300/28/3/332
fuzzy logicとのつながりも気になる
ニューラルネットワークは曖昧な仕方で推論しているように見えるが、それを形式的に何と呼べばよいのかよくわからない
fuzzy reasoning を形式化しようとする試みは何年も続いてきたのに、今では誰も気にしていないようだ
私の感覚では、ニューラルネットワークと transformer はMLにおけるOOPのようなものだ
とても人気があり、実務でもかなりうまく機能するが、根本はまだ不透明で、昔から表現できたものを新しい言語で言い換えている感覚があり、正確にどこで利得が生まれているのかを特定しにくい
まだ論文を全部読んではいないが、文章が本当に引き込まれるようにうまく書かれていて、かなり思慮深いと感じた
咀嚼すべき内容は非常に多いが、こうした話が一か所にまとまっているのを見るのはとても興味深い
ディープラーニングが高いレベルでうまく機能する理由は、結局のところより多くのデータで学び続ける能力が他のアプローチより優れているからだと思う
しかし、今のような膨大な量のデータがなければ、アーキテクチャはそれほど重要ではなかっただろう
モデルとデータの方程式の両側を一緒に説明できなければ、たとえば reasoning モデルがなぜ推論するのかといった問いに対して、堅固な科学理論を築くのは難しいと感じる
モデルはアーキテクチャと学習データが一緒に作り出した産物だ
今のこの問題は、人間や動物が膨大な入力データの中からどうやって特定のことを学ぶのかを説明するのと同じくらい、まだ見通しが立っていないように思える
経験的理解はさらに進むだろうが、根本は再びコンピュータサイエンスへ還元できないのかもしれない
真の複雑性の核心はアーキテクチャよりギガデータセットの側にあると思う
理論は失敗モードの予測が必要になる瞬間に決定的に重要になる
たいていはそこそこ当たるが、edge case で静かに壊れる意思決定支援システムは、限界が明確なもっと単純なシステムよりむしろ危険だ
バイアスのメカニズムを理解すれば、モデルがいつ本当に確信しているのか、いつ単にpattern matchingしているだけなのかを見分ける助けになる
この違いは stakes の大きい環境でとりわけ重要だ

ディープラーニングの科学理論は登場するだろう

序論

learning mechanicsとは何か

learning mechanicsに必要な7つの条件

根本性

数学性

予測可能性

包括性

直観性

有用性

謙虚さ

なぜlearning mechanicsが重要なのか

科学的理由

実用的理由

安全性に関する理由

学習 mechanics が現れつつある証拠

解析的に解ける設定

洞察を与える極限

単純な経験則

ハイパーパラメータ理論

解析的に解ける設定

データに対する線形化

パラメータに対する線形化

線形化を超えて

洞察を与える極限

無限幅極限と lazy-rich 二分法

lazy または kernel または linearized regime

rich または active または feature-learning regime

rich regime で現れる挙動

有限幅でも現れる lazy-rich 遷移

無限深さ極限と他のハイパーパラメータ極限

他のサイズ極限

表と図から見える要約

関連記事

1件のコメント

Hacker Newsの意見