Kolmogorov-Arnoldネットワークでニューラルネットワークの理解度を高められる可能性

(quantamagazine.org)

1 ポイント投稿者 GN⁺ 2024-09-14 | 1件のコメント | WhatsAppで共有

2024年4月に公開された Kolmogorov-Arnold network（KAN） は、従来のMLPベースのニューラルネットワークより内部動作を読み取りやすい代替案として提案され、特定の問題群では一般的なニューラルネットワークが行うほぼすべての作業を実行できる
KANはエッジに数値の重みではなく、学習可能な 非線形関数 を配置して出力を合わせるもので、この構造は1957年のKolmogorov-Arnoldの定理に根ざしている
MITのZiming LiuとMax Tegmarkの研究チームは、2層KANの限界に直面した後、3層以上の構造 を試し、3層KANが2層では正確に表現できない関数を表現できることを示した
結び目理論とAnderson localizationの問題で、KANは答えを出すだけでなく、関連する数式や関係まで示しており、物理のように変数が少ない 科学問題 で特に有用である可能性がある
後続研究では解釈可能性の課題と偏微分方程式の求解で強みが確認された一方、コンピュータビジョンとオーディオ処理ではMLPの方が優れており、KAN 2.0は使いやすさを高めた形で公開された

MLPのブラックボックス性とKANの登場

現代のニューラルネットワークを代表する基本構成は multilayer perceptron（MLP） であり、大規模データセットへ拡張したときに強力な性能を発揮する
MLPベースのネットワークは成功しているにもかかわらず、人間が結論に至る過程を理解するのが難しく、結果を説明する根本原理があるのかも把握しにくい
2024年4月の KAN論文は、より透明でありながら、特定の問題群では一般的なニューラルネットワークが行うほぼすべてのことを実行できる Kolmogorov-Arnold network（KAN） を提案した
Johns Hopkins UniversityのAlan Yuilleは、KANは解釈可能性がより高く、データから科学的規則を抽出する必要がある科学分野の応用に特に有用になり得ると見ている

KANが関数をフィットさせる方法

一般的なニューラルネットワークは、人工ニューロンまたはノードの層をエッジで接続し、各エッジの重みを学習過程で調整して、出力が正解に近づくようにする
ニューラルネットワークの一般的な目標は、データポイントを最もよく結ぶ数学的関数や曲線を見つけることにある
- 物理過程をモデル化するなら、出力関数が物理を説明する方程式、つまり物理法則に相当する形になることが期待される
MLPには、可能な最適関数にどれだけ近づけるかを示す数学的定理があり、その結果としてMLPはその関数を完全には表現できない
KANはエッジに単純な数値の重みを置かず、学習可能な 非線形関数 を置く
- このエッジ関数は、より複雑な曲線を表現できる
- MLPの数値重みよりも細かく調整できる

1957年の定理と35年間の懐疑論

KANの核心には、1957年にAndrey KolmogorovとVladimir Arnoldがそれぞれ発表した数学的結果がある
- 複数の変数を持つ1つの数学関数を、単一変数関数の組み合わせに変換できるという内容である
重要な制約は、定理が作り出す単一変数関数が 滑らかでない場合がある という点である
- V字の頂点のように鋭い部分を持ち得る
- ネットワークが学習中に目標値に合わせて曲がるには、単純な単一変数の断片が滑らかである必要がある
1989年にMITのTomaso Poggioらが書いた論文は、KANの中核となる数学的アイデアは「学習のためのネットワークという文脈では無関係だ」と明記している
Ziming LiuとMax Tegmarkは、単一変数関数が滑らかでなくても、ネットワークは滑らかな関数でそれを近似でき、科学で出会う関数の大半は滑らかである点に着目した
1989年以降、ソフトウェアとハードウェアが大きく進歩したため、Liuは過去に注目されなかったアイデアを再び試みた

2層から多層KANへの転換

Liuは約1週間かけて最も単純な形である 2層KAN のプロトタイプを作ったが、目標としていた科学関連タスクでは良い性能を得られなかった
2層KANは、Kolmogorov-Arnoldの定理が多変数関数を内部関数と外部関数の集合に分ける構造と自然に合っているように見えた
Tegmarkは2層より多い層を持つKANを試すことを提案し、このアプローチが成果につながった
研究チームはMIT、California Institute of Technology、Northeastern Universityの同僚とともに、数学者と応用分野の専門家を含む共同研究体制を組んだ
2024年4月の論文で研究チームは 3層KAN が可能であることを示し、2層KANでは正確に表現できない関数を3層KANが正確に表現する事例を提示した
その後、最大6層まで実験し、層が増えるほどより複雑な出力関数に合わせられることを確認した

実問題で明らかになった解釈可能性

結び目理論
- 2021年、DeepMindチームは特定の結び目のさまざまな属性を入力として、その結び目の位相的性質を予測するMLPを作成した
- 新しいKANはその成果を再現し、予測された性質が他の性質とどのように関連するかも示した
- Liuはこの部分を、MLPにはまったくできないことだと評価している
Anderson localization
- 2つ目の問題は、凝縮系物理の Anderson localization 現象に関連するものだった
- 目標は、特定の相転移が起きる境界を予測し、その過程を説明する数学公式を見つけることだった
- MLPがこの作業を成し遂げた例はなく、研究チームのKANはこれを実行した
- Tegmarkは、KANの最大の利点と最近の開発の主な動機は 解釈可能性 にあると見ている
- データが与えられたとき、Tシャツに書けるような公式を出すことが解釈可能性の一形態だと表現している
- Johns HopkinsのBrice Ménardは、問題が実際に単純な方程式で説明されるなら、KANはそれを見つけるのにかなり優れていると評価している
- ただし、KANが最もよく機能する領域は、物理のように方程式の変数が非常に少ない問題に限られる可能性がある

後続研究とKAN 2.0

LiuとTegmarkのKAN論文は約3か月で 75回引用 され、他の研究グループも独自のKAN研究を開始した
Tsinghua UniversityのYizheng Wangらが2024年6月にオンライン公開した論文は、Kolmogorov-Arnoldベースのニューラルネットワーク（KINN）が 偏微分方程式（PDE） の求解でMLPを大きく上回ったと述べている
- Wangは、PDEは科学全般に存在すると述べている
National University of Singaporeの研究者による2024年7月の論文は、より混在した結果を示した
- KANは解釈可能性に関する課題でMLPより優れていた
- コンピュータビジョンとオーディオ処理ではMLPの方が良い結果を出した
- 自然言語処理とその他の機械学習タスクでは、両ネットワークはおおむね同程度だった
Liuはこうした結果を意外とは見ていない
- もともとのKAN研究の焦点は、解釈可能性が最優先される 科学関連タスク にあった
2024年8月、Liuと共同研究者らは KAN 2.0 論文を公開した
- Liuはこれを従来の論文というよりユーザーマニュアルに近いものだと表現している
- KAN 2.0はより使いやすく、元のモデルになかった乗算ツールなどを提供する

応用中心から理解中心へ

Liuと共著者らは、KANが単なる目的達成の手段を超えて 好奇心駆動の科学 を促進すると見ている
機械学習で長く支配的だったアプローチは応用中心の科学である
- たとえば天体の運動を観測する場合、応用中心の研究者は将来の状態予測に集中する
- 好奇心駆動の研究者は、その運動の背後にある物理を明らかにしようとする
KANにより、研究者は難しい計算問題の解決を支援してもらうだけでなく、理解そのものを目的としてニューラルネットワークを活用できる

1件のコメント

GN⁺ 2024-09-14

Hacker News の意見

KAN の主著者が昨日 MLCAD でチュートリアルセッションを行っていた。ハードウェア／半導体設計と機械学習／ディープラーニングの交差領域を扱うカンファレンスだった。
物理システムに対する洞察や解釈、たとえば 記号式、保存量、対称性を得る用途には、本当に興味深くよく合っているように見えた。
科学や数学には有用かもしれないが、工学ではこうした解釈可能性が機械学習／ディープラーニングの最優先目標ではないこともあり得る。
より難しいタスクを学習する能力や学習容量はまだ不確かで、KAN の「活性化」に使う基底関数の選択や、この層をどの構造に組み込めば利点が出るのかも、まだ十分には探索されていない。
人々が KAN をさらに実験すれば、こうした問いへの答えがもっと出てくると思う。
- 同じ著者による2か月前の発表がある: https://www.youtube.com/watch?v=FYYZZVV5vlY
- そのセッションの公開版があるのか気になる。
不可能だと思う。
内部演算の1つが理解可能だからといって、ニューラルネットワーク全体が理解可能になるわけではない。
もっと単純な 決定木 だけを見ても、教科書では一度に1つの特徴で判断し、葉で出力を出す理解可能なシステムとして紹介される。
90年代のようにコンピュータが遅く木が小さかった頃なら正しかったが、今では巨大な決定木や ランダムフォレスト が数百万ノードの木を作れるし、そういうものは解釈可能ではない。
複雑系の理解には根本的な数学的ギャップがあり、また別のニューラルネットワークの種類が1つ増えたところで解決しない。
- 「ニュートンがこれを使って、自分が分析していた力の式、たとえば重力 = g m_1 m_2 / d^2 のようなものを見つけられただろうか？」と考えている。
  以前、物理学の教授に原理的に可能か尋ねたところ、可能だと言われた。
  KAN は実験データが与えられたときにこうした式を見つけ出せそうで、それが本当なら 解釈可能性 と呼ぶに値すると思う。
- 複雑系について推論させてくれる 公式や方程式 が、そもそも存在しないこともあり得る。
  複雑性を推論するには、実際にその複雑性をそのまま実行しなければならない可能性も高い。
- 概ね同意で、十分に複雑な 非線形モデル では解釈可能性の追求は徒労だと思う。
  それでも、非線形力学やパターン形成の分野でいつか成功したブレークスルーが出てこないとしたら、むしろ驚くだろう。
- 非常に複雑な決定木でも、ある程度は解釈可能だ。
  木をたどりながら「この条件が真でなければ結果は変わっていただろうか？」といった質問に答えられるからだ。
  木全体を一度に頭の中に収めるのは難しいだろうが、実際に通った経路を理解しようとして必要なときに調査することはできる。
- 多くの人は木のアンサンブルを ブラックボックス と呼ぶ。
  私はグレーボックス、あるいは濃いグレーの箱に近いと思う。
  望めば解釈はできるが、実際に500本の木を全部見て回りたい人がいるだろうか。
KAN 論文で提供されている半自動の単純化アルゴリズムは、https://arxiv.org/pdf/2112.04035 と似た問題を解いているように見える。
ただし、汎用的な抽象圧縮器ではなく、順伝播関数の解釈可能性 を目標にするという追加の制約が付いている。
そうではない。
些細な関数フィッティング問題では、KAN は各基底関数が次の層にどの程度寄与するかを可視化できるようにしてくれる。
だが、こうした浅くて些細なニューラルネットワークは、そもそも中をのぞき込む必要がほとんどない。
深いニューラルネットワーク は、このアプローチで説明可能になるわけではない。
- その通り。
  数百万〜数十億個のパラメータを持つものが、私たちの望む形で「説明可能」になり得るのか分からない。
  数十億項を持つ一般的な多変数関数を巨大なホワイトボードに書き出したところを想像してみると、なぜその数値を出すのか本当に理解できるだろうか。
  KAN はパラメータ数が1桁ほど少ないかもしれないが、根本的な問題は依然として同じだ。
この話題と直接関係ないかもしれないが、気になることがある。
ニューラルネットワークの強みの1つは GPU が提供する巨大な 並列性 を活用できる点にあるが、スカラー重みだけを使っていて計算資源を余らせているのではないだろうか。
重み行列の代わりに 関数行列 を使うのはどうだろう。
- ニューラルネットワークはすでに関数で構成されている、と見るのが正しい。
  層として積み重なったノードのまとまりが、複雑な非線形関数になる。
  たとえば小さな3層ニューラルネットワークでも、3次スプライン関数 をモデル化するように学習できる。
  関数の内部はすべての段階、すべての足し算と掛け算で学習される。
  ニューラルネットワーク内の関数の数は重みの数の一部と見なしてよく、そのため、より複雑な関数を直接モデル化するよりも理論上は柔軟で強力だ。
  正しい関数が分かっているなら、特定の関数で小さな固定関数 MLP をモデル化して学習効率を高めることもできるかもしれないが、注意しないと性能を失う可能性もある。
  主な問題は、どの関数を使うべきか分からない点であり、非線形関数を追加すると、性能・精度・初期化・正則化の面で新たな難しさが生じる可能性がある。
  線形数学は簡単で強力であり、すでに複雑な関数をモデル化できるが、非線形数学も有用かもしれないので、さらなる研究が必要に見える。
- GPU は 浮動小数点値の行列 に最適化されているため、現在のニューラルネットワークはスカラー重みを含む行列を基盤に使っている。
- その説明は 深いガウス過程 と非常によく似ている。
- 重みの各行や列に非線形性を付けたものが、すなわち 学習可能な関数 だ。
最近 https://news.ycombinator.com/item?id=40219205 でも議論されていた。
科学応用における解釈可能性の核心は 記号回帰 にある。
MLP は任意のデータセットに対して常に方程式を吐き出せるわけではないが、KAN なら可能だ。
- MLP は 普遍関数近似器 だと理解していた: https://en.wikipedia.org/wiki/Universal_approximation_theorem
ニューラルネットワークにおいて、正確には何が「未知」なのか説明できる？
私たちが作ったもので、何で構成されていて、どう動くかも知っている。
この「多層パーセプトロン」のノード間のすべての接続を一つひとつ対応づけることはできないが、そうした接続がどう形成されるかは知っているのでは？
- GPT-4o のような最新の LLM は、b64 エンコードされたテキストを基本的に理解できる。
  私たちにも b64 テキストをデコードしエンコードするアルゴリズムはあるが、GPT-4o はそのアルゴリズムをそのまま実行しているのだろうか？
  学習によってそのアルゴリズムを覚えたのだろうか？明らかにそうではない、少なくとも完全にはそうではない。
  私たちのアルゴリズムなら原文の意味抽出が不可能になるような b64 のタイプミスも、4o にはほとんど問題にならないからだ。
  では、どうやって b64 をデコードしているのか？分からない。
  私たちはニューラルネットワークを本当に「作っている」のではなく、構造を作って学習させている。
  学習データの提供を除けば、何を学ぶかは人間の直接的な制御の外にある。
  些細なおもちゃの例を除けば、何を学んだのかはほとんど分かっていない。
  接続が形成されることも知っているし、重みも見られるし、行列乗算も見られる。
  しかし、それらの計算が何をしているのか、何を意味しているのかは分からない。
  異星人が C コードの実行される様子を見られるからといって、そのコードを理解していると言えるだろうか？
- 各接続が何を意味するのか、各重みにどんな情報がエンコードされているのかは分からない。
  数百万から数兆個の重みそれぞれを変えたら動作がどう変わるのかも分からない。
  辞書と比べると、辞書では各ページや各行にどんな情報があるのかは明確だ。
- 細部を少し省くと、モデルは入力に多数の高次元関数を適用しており、なぜそれらの関数が問題を解くのか、その理由を私たちは知らない。
  重みの次元を人間が読める値に落とし込むのは些細なことではなく、複数のニューロンが予測しにくい形で相互作用する。
  解釈可能性の研究は有用な結果や見栄えのよい可視化[1][2]を多く生み出し、Transformer を理解しようとする取り組み[3][4]も多いが、現在使われている大規模モデルを完全に説明するにはまだほど遠い。
  [1] - https://distill.pub/2018/building-blocks/
  [2] - https://distill.pub/2019/activation-atlas/
  [3] - https://transformer-circuits.pub/
  [4] - https://arxiv.org/pdf/2407.02646
- LLM は脳ではないが、脳は有用なたとえになる。
  私たちのニューロンをすべて覗き込んだからといって、私たちがどう考えているかを完全には理解できないのと同じように、LLM も個々の構成要素の分析だけでは理解できない。
  LLM の解読はおそらく脳よりは簡単だろうが、簡単という意味ではない。
- 接続がどう形成されるか、そしてどう形成させるかは分かっている。
  ただ、なぜその特定の形成のされ方が目の前の問題を解くのかは分からない。
  今ではこの表現さえ厳密には正しくない。
  ブラックボックスの中で何が起きているのかについての研究が多く進んでいるからだ。
  問題は、一度も完全なブラックボックスだったことはない、という点にある。いつでも内部を見ることはできたが、理解するのが難しかった。
  KAN はその一部を数学的定式化へ移す助けになり、データに対する活性化マップを作ることも同様に洞察を与えてくれる。

Kolmogorov-Arnoldネットワークでニューラルネットワークの理解度を高められる可能性

MLPのブラックボックス性とKANの登場

KANが関数をフィットさせる方法

1957年の定理と35年間の懐疑論

2層から多層KANへの転換

実問題で明らかになった解釈可能性

結び目理論

Anderson localization

後続研究とKAN 2.0

応用中心から理解中心へ

関連記事

1件のコメント

Hacker News の意見