- 多様なディープラーニングモデルが、異なるデータや初期値で学習されても、共通の低次元パラメータ部分空間へ収束することが大規模実験で確認された
- 1100個以上のモデル(500個のMistral-7B LoRA、500個のVision Transformer、50個のLLaMA-8Bなど)をスペクトル解析した結果、分散の大部分が少数の主成分方向に集中していた
- この**普遍的部分空間(Universal Subspace)**はモデル構造に応じて形成され、データや初期化に関係なく繰り返し現れる
- この構造はモデル圧縮、パラメータ効率の高い学習、モデルマージ、高速推論などで大きな潜在力を持つ
- 研究はニューラルネットワークの内在的構造と汎化能力を新たに理解する手がかりを提供し、今後の効率的な学習アルゴリズム設計の重要な基盤となり得る
普遍的部分空間の発見
- 多様なデータセット、初期化、ハイパーパラメータで学習されたディープラーニングネットワークが、共通の低次元部分空間へ収束することが観測された
- この現象はアーキテクチャごと・層ごとに類似した低ランク構造として現れる
- 学習データや損失関数が異なっても、同じ構造的傾向を示す
- スペクトル解析の結果、個々の課題の重み空間は互いに異なるように見えても、実際には共有された低次元空間の一部として存在している
- これらの結果は、過学習したモデルが汎化する理由、異なる初期化が類似した表現へ収束する理由、パラメータ効率の高いファインチューニングが成功する理由を説明できる根拠として提示される
大規模実験と分析
- 研究では、500個のMistral-7B LoRAアダプタ、500個のVision Transformer、50個のLLaMA3-8Bモデルを含む1100個以上のモデルを分析した
- 各モデルは異なるデータセットと初期化条件で学習された
- 主成分分析(PCA)の結果、少数の主成分が分散の大部分を説明しており、これは共有された低ランク部分空間の存在を示唆する
- 特にランダム初期化された500個のViTモデルでさえ同じ低次元部分空間へ収束しており、これはニューラルネットワークの根本的性質として解釈される
理論的モデリングと数学的定式化
- 研究では予測器をヒルベルト空間(Hilbert space)上の要素としてモデル化し、複数課題間の共通部分空間復元条件を分析した
- 各課題の予測器 ( f_t^* ) から共通二次モーメント演算子 Sを定義し、学習済み予測器 ( \hat{f_t} ) からの近似演算子 ( \tilde{S} ) がSへ収束することを証明した
- Theorem 2.5 は、学習された部分空間が実際の共通部分空間へ収束することを示し、収束速度は**課題数(T)と各課題の推定精度(η)**によって決まる
- **固有値ギャップ(γₖ)**が大きいほど、部分空間復元は安定する
応用可能性と影響
- 共有部分空間を活用すると、次のような応用が可能になる
- 全重みの代わりに部分空間係数のみを保存してモデル圧縮を行う
- 学習済み部分空間内で新しい課題に素早く適応する
- 汎化限界と最適化地形に関する理論的洞察を提供する
- 学習と推論の計算コスト削減により炭素排出の低減が可能になる
- この構造はモデル再利用性、マルチタスク学習、モデルマージなどにおいても効率を高められる
今後の研究課題
- アーキテクチャ間での普遍的部分空間の違いと、その幾何学的最適化可能性は未解決の課題として残っている
- すべてのネットワークが同じ部分空間へ収束する場合、バイアスと失敗モードの共有による多様性不足が新たなボトルネックになる可能性がある
- 今後の研究では、このような収束を意図的に分散させる方法の開発が必要となる
主な貢献の要約
- ディープラーニングネットワークのパラメータ空間における普遍的な低次元部分空間の存在を実証した
- 多様な課題セットから近似的な共有部分空間を学習する方法を提示した
- 学習された部分空間を用いて、新しい課題に少ないパラメータで効率的に適応できることを検証した
- モデル圧縮、高速な学習と推論、効率的なスケーリングへの活用可能性を示した
1件のコメント
Hacker Newsのコメント
「500 Vision Transformers」という表現は紛らわしかった
実際には、同じベースモデルをファインチューニングした500個のバージョンを意味している
これらのモデルは Hugging Face の匿名ユーザーアカウントからダウンロードされたもので、「普遍的(universal)」という表現は実質的に単一の事前学習モデルにしか当てはまらない
LoRA のようにファインチューニングされたモデル同士が似ているのは、驚くようなことではない
なお、論文で引用されているモデルの1つ CheXpert-ViT-U-MultiClass には、Hugging Face 上でマルウェア警告が表示されている
最初は異なるモデルアーキテクチャ間の共通部分空間を見つけたのかと思って混乱したが、結局のところ同じモデルクラス内での安定性を指している
ただ、これは結果的に「損失関数がよく定義された極小点を持つ」という当然の事実を確認した程度で、「普遍的重み部分空間仮説」という名前はやや大げさに感じる
LoRA ほどすぐに実用的ではないが、後続研究の可能性はある
500個のデータセットでファインチューニングすれば500次元空間を形成しそうだが、実際には約40次元の部分空間に収束する
つまり、ファインチューニング済みの重みは40個の実数に圧縮できる
いつか Hugging Face でモデルサイズが「160バイト」単位で表示される日が来るかもしれない
ただし、これらの基底ベクトル自体は依然としてモデルサイズと同じだけ大きく、データセットが増えても次元が増えないという仮定が必要になる
著者らがランダムなモデルを使ったのは残念だが、この研究が大規模モデルをゼロから学習する後続研究につながってほしい
しかも論文ではゼロから学習したモデルも分析していたはずだと思う
論文で最も重要なのは次の2文だと思う
第一に、新しい ViT モデル5個の重みを16次元の普遍的部分空間に射影しても、精度の損失がなかった
第二に、500個の ViT モデルを1つの普遍的部分空間モデルで置き換えることができ、メモリ使用量を100分の1に減らせた
つまり、50個の LLaMA3-8B、177個の GPT-2、8個の Flan-T5 モデルから共通構造を見つけ出し、それを元のモデルの代わりに使っても性能が維持されたということだ
たとえるなら、すべてのファイルを99%圧縮できる**bzip2 辞書(dictionary)**を発見したようなものだ
モデルが線形変換まで含めて同じ空間へ収束するという内容だ
たとえば、MSE 損失を使うサイアミーズエンコーダは、デコーダなしでも同じ潜在空間へ収束する
したがって、似たデータで学習した Transformer も、線形変換のレベルでは同じ空間に到達する可能性が高い
その意味で今回の結果は驚くほどではなく、むしろ この論文 のような数学的証明のほうが重要だと思う
たとえば、この普遍的重み部分集合で新しいモデルを初期化できるのか、またそれが特定のアーキテクチャにしか適用できないのかを知りたい
単なるコードのバグか、恣意的に決めた値かもしれない
論文は「普遍性」を大げさに売り込んでいるように感じた
CNN の場合、フィルタがLaplacian/Gabor 形状に収束するのは強い帰納バイアスによるものだ
Transformer にはこうした局所性の制約がないため、部分空間を見つけられたのは**共有初期化(ファインチューニング)**を通じてだけだった
結局のところ「普遍性」とは学習の本質的な性質ではなく、構造的制約 + 事前学習の安定性の結果だ
このアプローチは LoRA よりはるかに優れており、推論速度の向上にも使えそうだ
すでに大規模モデルが内部的に利用している可能性すらある
重要なのは、新しいタスクへの能力移転に関与するパラメータ部分集合を見つけた点だ
完全に新しいタスクには適用できないが、同じドメイン内では有効だ
GPT 5.1 の比喩でいえば、3D キャラクターのリギングで「表情」を調整する**基底表現(basis expression)**に似ている
物理法則の中で可能なタスクは有限であり、その大半は無意味だという意見だ
論文が説明する「普遍的部分空間」という概念は明確ではなかった
同じモデルファミリー内でしか比較していないので、ViT と GPT-2 のように構造の異なるモデル間には共通部分空間は存在しない
主成分分析の結果が対数的に減少するのは当然の現象だ
また、行列積では行と列を入れ替えても結果を元に戻せるため、完全に独立して学習されたモデルが同じ部分空間の方向を共有することはありえない
モデルが自然に低次元空間へ収束するなら、その空間内で学習を始めることで訓練速度を大幅に高められる
Transformer も似た原理で動作している可能性が高い
理論的には この論文 のような数学的証明が必要だ
OpenAI や Google よりはるかに少ないリソースでこの結果を出した点が印象的だ
こうした構造を**遺伝的アルゴリズム(GA)**で発展させたらどうか、という考えが浮かぶ
実際、ニューラルネットワークの話になるといつも GA を連想してしまう
交叉(crossover)や突然変異(mutation)は直感的に理解できるが、逆伝播(backpropagation)はいまだに難しく感じる
重み行列をスペクトルパターンに分解し、圧縮空間で探索する方式だ
既存の大規模モデルを圧縮形でエンコードし、突然変異の出発点にすることもできそうだ
このアプローチが発展すれば、新しいメカニズムを進化的に発見できるかもしれない
EvoLisa リンク
LLM の学習とはまったく異なるが、ある意味では似た感覚もある
「Platonic Representation Hypothesis」との関係が気になる
最近またプラトン的な議論が流行しているのを見ると、何か根本的な洞察へ収束しつつあるように思える
共有された表現構造はプラトン的カテゴリーの有力な候補になりうる
両者の間には興味深いマッピングが存在しそうだ
以前の仮説を経験的に裏づける証拠を提示したと言える
「すべてのモデルは、実は LLaMA のファインチューニング版なのかもしれない」という冗談交じりの推測もあった
著者らはさまざまな低ランク・ファインチューニング(low-rank fine-tune)モデルを分析し、共通した低ランク構造を発見したと主張している
これはベースモデルに依存しており、人間の遺伝的変異が少数の主成分で表現されることに似ている
結局、**共有された祖先性(ancestry)**があるからこそ、この現象が現れているのかもしれない