ディープラーニングは応用トポロジーである

(theahura.substack.com)

7 ポイント投稿者 GN⁺ 2025-05-21 | 1件のコメント | WhatsAppで共有

ディープラーニングは、データを高次元空間の多様体の上に置き、ニューラルネットワーク層の変換によってその表面を曲げたり伸ばしたりして、分離可能な構造を見つける過程と見なせる
tanh(Wx+b) のような層は、行列変換、ベクトルの移動、非線形関数をつなぎ合わせた連続変換であり、複数の層を積み重ねると複雑なデータセットも別の形に変えられる
低次元では一本の線で分けられない円形データも、より高い次元に持ち上げれば分離可能になり、ニューラルネットワークはこのような表現空間を学習できる
埋め込みベクトルはテキスト・画像・概念を数値空間の点として表現し、うまく形成された表面では king - man + woman = queen のような概念演算が可能になる
現在の推論モデル学習は、良い reasoning trace を選ぶことで推論多様体上を移動する過程として解釈でき、DeepSeek R1式の強化学習は人が直接選ぶコストを減らす方法として扱われる

トポロジーから見るニューラルネットワーク

トポロジーは、表面を裂いたり穴を開けたりしない限り、曲げる・ねじる・伸ばすといった変形をしても保たれる性質を扱う数学である
粘土の表面に描いた円は、回転したり曲がったりしても突然線になったり、2つの円になったり、自分自身と交差したりしない
データ分類問題も同じように見られる
- 2D平面上のデータが一本の線ではきれいに分けられなくても、表面を適切に変形すれば分離可能な構造が現れることがある
- こうした空間操作がディープラーニングの中核にあるという見方である

ニューラルネットワーク層は表面を変形する連続変換

ニューラルネットワークを線形代数のスタックとして見る説明は概ね正しく、行列は幾何学的な表面を変換する演算として解釈できる
Chris Olahの2014年の記事もディープラーニングの多様体をこのように扱っている
tanh(Wx+b) 層は3段階で構成される
- W による線形変換
- b ベクトルによる移動
- tanh の点ごとの適用によって生じる非線形歪み
こうした変換を複数の層として積み重ねると、複雑なデータセットも分離可能な形に変えられる
ただし、円の内側の点群とその外側を囲む点群のように、トポロジー的に一本の線では分離しにくい場合もある
- このときは2次元から3次元へ持ち上げることで、データをきれいに分離できる
- 低次元では不可能な分離が高次元では容易になることがある

埋め込みと意味的多様体

大規模なニューラルネットワークは**トポロジー生成器(topology generator)**のように見なせる
- 入力データを受け取り、損失関数が要求する性質を満たす表面を見つける
- 分類タスクでは、犬と猫が空間の異なる領域に置かれるよう学習する
- 翻訳タスクでは、bread と pan、猫の写真と cat のような項目が近い位置に置かれるよう学習する
- 次トークン予測では、トークンが使われ方に応じてまとまる表面を学習する
データは高次元で意味的に関連する多様体の上にあり、多様体を作ることはデータセットを意味的に表現することとつながっている
色の例は、この構造がデータ自体に内在しうることを示している
- [128, 0, 0] は赤、[0, 0, 128] は青を表す
- 2つのベクトルを足すと紫を作れる
- 色の次元性、色同士の類似性、色の混ざり方はデータに内在する構造と見なせる
画像も多様体上の点として扱える
- 画像は Height x Width x 3 サイズのRGBピクセル値で表現される
- これを1つのベクトルに展開すれば、特定サイズのすべての画像を高次元空間上の点と見なせる
- ブラッド・ピットがサンドイッチを食べている画像の領域とモナ・リザの画像は、同じ画像空間内の別々の点になりうる
画像空間の大部分はノイズであり、ピクセルの類似性だけでまとめても有用ではない
- ディープラーニングモデルは画像の表面を曲げたり伸ばしたりして、関心のある画像は近くに、ノイズは遠くに配置できる
モデル内部では、テキスト・画像などの情報を埋め込みベクトルという数値のリストで表現する
- 各埋め込みは概念に結びつくと同時に、空間上の点でもある
- うまく形成された表面では king - man + woman = queen のような数学的な概念演算が可能になる

推論学習を多様体上の移動として見る

すべてが多様体の上に置かれるという観点では、推論も1つの多様体と考えられる
- 良い推論は空間の一方に、悪い推論は別の側にクラスタ化すると想像できる
- 良い と 悪い を厳密な数学用語として定義できなくても、それらを区別できればニューラルネットワークを訓練できる
Google、Anthropic、OAI、DeepSeek のような主要AI企業もこの方向に動いていると解釈される
AI業界では、純粋な言語統計だけで得られるものは概ね取り尽くしたという合意があると見られる
- ほとんどのLLMは数兆トークンで学習されている
- 数千兆トークンまで増やしても追加の利得は大きくないかもしれない
- 次トークン予測は推論に似ているが、それ自体で推論に到達するというより、次トークン予測をうまく行うようにする
instruction tuning と RLHF は、次トークン予測の領域から質疑応答の推論領域へ移動する方法として解釈できる
Chain of Thought は、推論多様体の推論領域へより明示的に移動する方法である
- o3 や Gemini 2.5 のようなモデルで Thinking… と見える思考過程は reasoning trace と呼ばれる
- 多くのクエリを実行すれば、良い reasoning trace と悪い reasoning trace を区別できる
- 例えば100万件のクエリから1万件の非常に良い trace を得られれば、それを使ってより良い trace だけを生成する新しいモデルを学習できる
この過程を繰り返せば、前のモデルで次のモデルをブートストラップできる
- 2つの reasoning trace のどちらがより良いかを判断する方法があれば、推論多様体上を移動し続けられる
- 1万件の良いサンプルを仮想的な、より進んだモデルから出たものと見なし、現在のモデルを distill-train する方法とも見なせる
このアプローチでAGIに到達するには十分だったという表現がある一方、すでにAGIがあるという主張には議論の余地があるという脚注が付く
ASIには十分ではないとされる
- 最良の推論を選び出す能力が限界になる
- 良い reasoning trace を集める作業には多くの費用と時間がかかる
- 多くの優秀な人が一日中選別しても、結果は主観的でノイズが多い可能性がある

DeepSeek R1、強化学習、そしてモデルを生成するモデル

DeepSeek R1 と他の強化学習手法は、良い推論を人が直接選ばない方向で登場した
DeepSeek のアプローチは、良い推論に対する定量的ヒューリスティックを作ることに焦点を当てる
- AI が通過すべきユニットテストや数学問題を作れる
- コードがテストを通過したり数学問題に正解したりすれば、その出力を生んだ reasoning trace は、間違った出力を生んだ trace より優れていると見なせる
- reasoning trace 自体に対する主観的な分析は必要ない
RLだけで、reasoning task の集合にかなり強いモデルを学習することに成功したと見なされる
ただしRLアプローチだけではASIには到達しない
- RLモデルも結局は漸近的な限界に突き当たる
- その後は、RLモデルが生成した reasoning trace をキュレーションし、まったく別の第2のモデルを微調整する
- 結果としてDeepSeekは、RLそのものというより、人が直接作るより低コストで高品質な reasoning trace を大量に生成する方法に近い
悪い推論と良い推論を区別するシステムを作ることは、最初からうまく推論するシステムを作ることより容易だという見方である
ニューラルネットワーク自体も多様体として表現できる
- ニューラルネットワークは特定の方式で並んだ重みの数値リストである
- すべてのパラメータを展開してベクトルにすれば、表面上の点に対応付けられる
- ある領域は semantic segmentation、別の領域は text translation、さらに別の領域は autoencoding に対応しうる
- 最終出力の重みはテンソルとして容易に表現できるため、出力に対して直接 backprop を適用できる
画像生成のdiffusion方式は、モデル生成にも適用できると提案される
- diffusion は画像にノイズを段階的に加え、そのノイズ付加を逆向きに戻すようモデルを学習する
- Hugging Face の複数の pretrained transformer layer チェックポイントにノイズを加えて、diffusion の学習セットを作れる
- pretrained モデルの説明をテキスト条件として与えれば、テキスト説明から別の pretrained モデルを diffusion で生成するモデルを想像できる
- "Spanish to English" のようなプロンプトを入れると、追加学習なしで完全に学習済みのモデルを出力するような可能性が示される
現在のほとんどのモデルはランダム初期化から始まるが、他のモデルを生成する diffusion モデルはランダム初期化より良い可能性があり、学習時間を大幅に短縮できるかもしれない
ディープラーニングは、モデルが何をしていてなぜ動作するのかについての良い動作理論が不足しているため非形式的な分野のままであり、埋め込み空間をトポロジー的に理解すると多くの概念が結び付く

1件のコメント

GN⁺ 2025-05-21

Hacker News の意見

この記事は私の2014年のブログ記事（https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/）に基づいているので、一言残しておきます
ニューラルネットワークを理解する方法として、トポロジーを本当に熱心に使おうとし、続編の記事も書きました: https://colah.github.io/posts/2014-10-Visualizing-MNIST/, https://colah.github.io/posts/2015-01-Visualizing-Representa...
位相的な見方が有用だった点はありましたが、ニューラルネットワークの内部で何が起きているのかを10年以上追い続けてみると、大きな成果はあまり得られませんでした
はるかに成果があったのは、「概念/特徴がニューラルネットワーク内の方向に対応する」という線形表現仮説と、そうした結び付いた概念のネットワークである回路という考え方でした
関連記事としては、https://distill.pub/2020/circuits/zoom-in/, https://transformer-circuits.pub/2022/mech-interp-essay/inde..., https://transformer-circuits.pub/2025/attribution-graphs/bio... があります
- ニューラルネットワークの理解の仕方に関して、よく見かける誤解があります。LLMは実質的には少し改良されたn-gramモデルにすぎないという考え、そして次トークン予測だけをしているのだからモデルは愚かであるはずだという考えです
  KarpathyのRNN記事[2]に対する有名な反応[1]が、言語ニューラルネットワークをn-gramモデルと同一視させる一因になったのではないかと気になります
  Stochastic Parrots論文[3]も、「主にn-gramモデルを念頭に置いていたが、結論はなお妥当で関連がある」という形で、LLMとn-gramモデルをある程度同一視しています
  ニューラルネットワークが本当に良くなる前には、両者がもっと似ていた時代があったように思います
  [1] https://nbviewer.org/gist/yoavg/d76121dfde2618422139
  [2] https://karpathy.github.io/2015/05/21/rnn-effectiveness/
  [3] https://dl.acm.org/doi/pdf/10.1145/3442188.3445922
- ここ数年 circuits の流れを追っていて、線形表現仮説は非常に説得力があるように見えます
  Toy Models of Superposition のレビュー草稿もメモに残してあります
  ただ、circuits は分析が特にTransformerアーキテクチャに縛られすぎている感じがして、やや説得力に欠けるように感じます
  線形表現仮説はアーキテクチャによって変わるのではないかと思います。GAN、VAE、CLIPなどは多様体を明示的にモデル化しているように見えます
  単純なモデルでも、最適化圧力によって十分に似た特徴を同じ線形方向へ折り込むはずです
  単純なモデルが似た特徴を直交方向に置くという経験的証拠と多様体仮説を整合させるのは難しいですが、それは結局、最適化している損失関数との関係がより大きいように見えます
  Toy Models of Superposition ではMSEを使い、モデルに事実上オートエンコーダの回帰/圧縮タスクを学習させているため、共起する特徴間の干渉パターンが重要になるのは自然です
  逆に、対照損失のような別の目的では、同じような干渉最小化の挙動は現れないと思います
- 2011年に初めてトポロジーを学んだ後、現実の問題にトポロジーを「適用」しようと何度も試みましたが、私の経験も似たものでした
  今では「現実のデータは滑らかで低次元の多様体に近い」というよくある表現にもためらいを覚えます
  この命題が実データにどの程度当てはまるのか、また自然データセットを効率的に扱うために使う次元削減手法によってどれほど歪められているのかをきちんと調べてみたいのですが、時間が足りません
- 物理学では、異なる大域対称性や位相多様体が、同じ計量構造、つまり局所幾何を満たしうる点が興味深いです
  たとえば、Einstein場の方程式における同じ計量テンソル解が、位相的に異なる多様体上に存在しえます
  逆にIsing Modelの解を見ると、同じ格子トポロジーが複数の異なる解を持つことがあり、系が臨界点近くにある場合には格子トポロジー自体が重要でないこともあります
  あくまで比喩ですが、ダイナミクスの興味深い細部がシステムのトポロジーに埋め込まれているわけではないことを示唆しています。より複雑な問題です
- 以前の記事について、小さなHNでの議論がいくつかありました
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=19132702 - 2019年2月、コメント25件
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=9814114 - 2015年7月、コメント7件
  Neural Networks, Manifolds, and Topology - https://news.ycombinator.com/item?id=7557964 - 2014年4月、コメント29件
本当にトポロジーなら、類似度検索のために多様体を曲げる必要はなかったはず。これは計量を持つ幾何学に近い
現実でもそうであるように、私たちは物事を比較できなければならない
学習中にも多様体の位相的変換が起きるので、学習中に位相がどう進化するのか気になる
最初は激しく変化して安定化し、その後に幾何学的な細部調整が続くのだと思う
関連論文としては Topology and geometry of data manifold in deep learning(https://arxiv.org/abs/2204.08624), Topology of Deep Neural Networks(https://jmlr.org/papers/v21/20-345.html), Persistent Topological Features in Large Language Models(https://arxiv.org/abs/2410.11042), Deep learning as Ricci flow(https://www.nature.com/articles/s41598-024-74045-9) がある
- GAN や VAE を触ったことがあるなら、この問いには実際に答えられる。答えはおおむね「そうだ」に近い
  学習中の複数のチェックポイントの GAN を見て、高次元空間の異なる点がどう動くかを UMAP や t-SNE のようなツールで確認できる
  序盤の激しい変化のあとに安定化し、幾何学的な細部調整が起きるというのも正しいが、序盤の変化は学習率とオプティマイザの選択の影響も受ける
- あえて言うなら応用線形代数に近いと思う。ただ、そう呼ぶと異国情緒が薄れるだけだ
記事自体は良かったが、2つの点集合の間を分ける分離面を見つけるというアイデアを、なぜ「トポロジー」と呼ぶのかは分からない
「英語・スペイン語翻訳や画像・テキスト変換を学習すると、bread が pan に近く、猫の写真が cat という単語に近い位相を学習する」といった文が出てくるが、これはトポロジーが扱うものではないに近い
点が「近い」あるいは「遠い」という概念は、トポロジーではなく計量の領域だ
ある位相空間で2点が近いとしても、空間を引き伸ばして同じ位相空間を保ったまま、その2点を遠くすることができる
コーヒーカップとドーナツが同じだという冗談の核心はまさにそこにある
全体としては、点が近く配置された代数多様体のようなものを探す、代数幾何学の現実への応用により近く見える。結局は幾何と点の間の距離の問題に見える
- 「これはトポロジーが扱うものではない」という発言は100%正しい
  ただ、記事がトポロジーとディープラーニングの2つを扱っている以上、明確な混同がそのうちの一方、つまりトポロジーだけにとどまっていることを願うばかりだ
- その文では “topology” をもう少し口語的に使っていた。“surface” と言うべきだった
- 緩く定義するなら、トポロジーは実際には、何らかの近さと遠さの概念を持つ空間を研究する学問だと見ることができる。計量がなくても同じだ
  点集合トポロジーにおける近傍という核心的な概念は、ある点の近くにあるという考えを捉え、連続性や数列の収束のように近さの概念を必要とするものを定義できるようにする
  Wikipedia [0] も、開集合の概念を通じて「近く」「任意に小さい」「遠く離れた」を厳密化できると説明している
  開集合の定義を変えれば、連続関数、コンパクト集合、連結集合も変わり、開集合の定義の各選択を位相と呼ぶ
  計量空間は、点のペアの間に非負の実数の距離、すなわち計量を定義できる重要な位相空間のクラスだ
  トポロジーがニューラルネットワークを理解する最善のレンズだという意味ではなく、筆者もコメントで考えが変わったと言っていた。ここでは誤解を正したかった
  [0] https://en.wikipedia.org/wiki/General_topology
タイトルは今のままだと陳腐で間違っているが、記事自体は読みやすかった
トポロジーとは、幾何から距離、角度、向き、切り裂かないあらゆる種類の引き伸ばしを取り除いたあとに残る、ごく小さな構造だ
そうした激しい変形のあとにも有効に残る最小限のものだ
機械学習で位相の概念が有用なのは確かだが、スケール・距離・角度のようなものは通常、データについて多くの必須情報を提供する
トラ猫とトラを区別しようとしているのに大きさを無視するなら、それは愚かなことだ
トポロジーは、長さ、距離、角度、任意の変形を信頼できないときに特に有用だ
そういう場合はあるが、ディープラーニングが応用トポロジーだと主張するのは途方もなく、ほとんど馬鹿げた話だ
- 入力データは信頼できない多様体上にある。ピクセル空間で Coca-Cola の缶の画像と一時停止標識の画像が近いという事実には、事前には何の意味もない
  ニューラルネットワークはまさにそうした激しい変換をすべて適用する
- 細部に入ると、純粋なトポロジーなら重要ではなかったはずのものが多く重要になる。層数から量子化/fp 解像度まで影響する
- “topology” という語には、あなたが今要求している条件をまったく含まない、正当な辞書的定義もある。2つの定義がある点を見落としているようだ
共有してくれてありがとう。私も学習を多様体の観点で見るほうだ。強力な表現方法だ
「十分に高次元の空間では、これは推論と区別できない」という部分について、かなり日記を書き、HN にも「確率的推論多様体」という名前で投稿したことがある
この多様体は、与えられた入力集合から脱文脈化されたパターン空間を学習して構成される
サンプリングの本質的な確率性のため、真の推論は公理ではなく確率で表現される
多様体上の固定点やアトラクタを探して公理を発見することはできるかもしれないが、究極的には入力集合から構成された確率的多様体を見ているのだ
ただし、この「推論」を入力データから切り離すことはできないと思う
十分に高度な推論多様体なら、どこにでも見られる「メタ推論」のような構造を見つけられるかもしれないが、こうした高度に脱文脈化された構造は、適切に再文脈化しなければまったく役に立たないことがある
結局、ある種の入力を処理するのに有用な多様体であるためには、その入力のパターンが学習可能な underlying rule に従っていなければならない

脱文脈化が学習、つまり入力の諸側面を文脈に依存しない関係へ分解することだとすれば、再文脈化はその対となるもので、非常に抽象的で、ときには表現不可能な文脈非依存の関係を、新しい領域で有用な分析へ変える能力である
コメント全文: https://news.ycombinator.com/item?id=42871894

一般的な推論、つまり命題の表現の上で作動する精神過程としての推論を言っているのか気になる
そうだとすると、「本当の推論は公理ではなく確率で表現される」という言葉は理解しにくい
推論の特徴の一つは、そのようには作動しない点にある
動物が、自分が表現した命題の上で非確率的に作動する能力をまったく持っていなかった可能性は非常に低い。これは正しい推論に不可欠であり、提供するのも比較的ささいな能力である
たとえば「クモが boxA の中にいるなら、ほかのすべての場所にはいない」といった具合である
データは実際には多様体の上にあるわけではない。データを考えるための近似にすぎない
ディープラーニングで有用だったもののほぼすべて、もしかすると 100% は、位相数学をまったく考えずに生まれた
ディープラーニングは何かの応用というより、ほとんど試行錯誤と実験によって発展した経験的な分野である
理論から来た直観が少しはあったが、その理論は位相数学ではなかった
- まったく同意しない。試行錯誤が多いのは確かだが、ディープラーニングは位相数学、幾何学、ゲーム理論、微積分、統計学などを含む複数の数学分野の理論が混ざり合ったものに近い
  最も基本的なバックプロパゲーションも、重みに連鎖律を適用しただけである
  違いは、ディープラーニングが非常にアクセスしやすく、正確には収益性のある分野になったことで、多くの実務者が形式主義の起源を学ばなくてもこのテーマを学べるようになった点にある
  結局、ほかの分野に昔からあった理論や手法を、その起源を知らないまま活用したり「再発明」したりすることになる
- 理論から来た「直観」は事後的なもののように思える。ディープラーニングが何らかの方法を作り出した後になって、ほかの科学分野の研究者が、ディープラーニングのアプローチと自分たちの古くからの方法との類似性に気づく、という形である
  例として、GPT が実は物理学で自分がすでに解いた計算問題と同じだと気づいた記事がある: https://ondrejcertik.com/blog/2023/03/fastgpt-faster-than-py...
- ディープラーニングを 10 年以上やってきた立場から見ると、この発言はかなり間違っている。データが多様体の上に存在するのは自明であり、ディープラーニングの応用にも当てはまる
  例として、私の記事でリンクされている Chris Olah の 2014 年のブログがある: https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/
  埋め込み空間を「空間」と呼ぶのには理由がある
  GAN、VAE、対照損失はいずれも、その上を歩き回りながら異なる種類のデータを作れるベクトル多様体を構成する問題である
- これは錬金術である
  現在の形のディープラーニングは、仮説的な基礎理論に対して、錬金術が化学に対して持っていた関係に似ている
  数百年後、私たちの後の文明に生きるイヌクティトゥット語圏の高校生たちは、「deep learning」という奇妙な言葉が、かつての共通語の名残だったと学ぶだろう
- 近似誤差を許すように定義を緩めれば、データは多様体の上にあると見ることができる。たとえば Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning(https://aclanthology.org/2021.acl-long.568.pdf) を参照できる
「この程度で AGI に到達するには十分だった」という文を読んだ瞬間、信頼度が急落した
全体としてアイデアは悪くないが、文章はかなりぼんやりしており、特に推論と結びつける部分がそうである
この領域には、https://arxiv.org/abs/1402.1869 のように、このアイデアを拡張し、より具体化した真面目な技術的研究がある
深層ニューラルネットワークで出会うもう一つのトポロジーはネットワーク・トポロジーである。これはネットワーク構造、つまりノードがどのように接続され、データがどのように流れるかを意味する
すでにオートエンコーダ、畳み込みニューラルネットワーク（CNN）、敵対的生成ネットワーク（GAN）のように、生物学から着想を得たよく知られた例がある
しかし脳のトポロジーと機能的結合性については、まだ学ぶべきことが多い
今後、個々の層/ノードの内部構造と、特化したネットワーク同士が接続され相互作用する方式の両方において、新しい構造を発見する可能性が高い
脳は単一のネットワークに依存せず、しばしば「Big 7」と呼ばれる複数のネットワークを並列に運用し、深く相互接続している
Default Mode Network（DMN）、Central Executive Network（CEN）、Limbic Network などがこれに含まれる
実際、一つのニューロンが複数のネットワークに属し、それぞれ異なる機能を果たすこともある
人工システムでは、まだこのような複雑性を十分に再現できておらず、この「ネットワーク・トポロジー」から学べること、インスピレーションを得られることはまだ多い
だから「Topology is all you need」 :-)
「良し悪しを区別できさえすれば、ニューラルネットワークを訓練してその位相を自分で整理させられる」という前提が問題である
約 10 年前、顔写真から生物学的性別を推測するようネットワークを訓練するプロジェクトを見た
バイアスを減らそうと、化粧、口ひげ、髪などを慎重に取り除いていたが、精度は 70〜80% 程度だった
当時は素晴らしい結果のように見え、99% を目標にしていた
論文を読んで最初にしたことは、似た写真で人間が生物学的性別を当てる論文を探すことだった
人間もそれよりはるかに優れているわけではなく、人間と機械の差は 1〜2% 程度だった
プロジェクトを運営している人たちに、写真だけでそのような区別が可能だとどう証明したのか尋ねたが、質問自体を理解せず、ただ可能だと仮定していた
結局、結果を改善することはできなかった。ニューラルネットワークの教え方が悪かったのかもしれないが、性別の標識を取り除くと、多くの顔は単に中性的なのかもしれない
この逸話を挙げた理由は、彼らの仮定が私の目にはかなり合理的に見えたからである

ほとんどの状況では、顔を見ればその人のズボンの中に何があるかを推測できるので、顔にその情報があると見なしたということ
しかし、教科書を毎年書き直し、「知識の半減期」を計算しようとし、哲学という学問も終わっておらず、何が最善かについて政治的・イデオロギー的な論争が毎日行われている状況で、私たちが良いことと悪いことを何らかの形で分離できるという仮定は、非常に、非常に非合理的だ

結局、「良いこと」と「悪いこと」の間にそのような区別が存在すると仮定すること自体も合理的ではない
AGI/ASIが、次トークン予測、チャットモデル、CoTモデルのような多様体上の点だと主張する図は混乱する
後ろの3つが同じ多様体の一部であることは証明可能かもしれないが、AGI/ASIまでそこに置く根拠が何なのか分からない
CoTが可能なモデルが、位相的な操作をいくら行ってもAGIと見なせるプロセスには到達しない可能性もあるのではないか
例えば、私たちが知るAGIに最も近い人間の知能は、自己回帰モデルの離散的処理とは異なり、極めて複雑な感覚および内部フィードバックループと連続処理を必要とする
素人としての直感では、LLMは知能や意識を生成できるシステムとはまったく同じ系統ではないように思える
- あり得る。AGI/ASIは定義が不十分だ。個人的にはすでにAGIに到達していると見るほうで、もちろん多くの人は同意しない
  人間の知能は複雑な感覚・内部フィードバックループと連続処理を必要とする、という説明は、ニューラルネットワークと生物学的ネットワークが実際にはかなり似た方法を取っていることを覆い隠してしまうと思う
  コネクトミクス研究をかなりやってきたが、例えばマウスの嗅覚システムでは、どのニューロンが発火するかによって一種の特徴ベクトルのようなものが現れる
  特定のニューロン集合が発火すると「チョコレート」や「レモン」のような意味になる、という具合だ
  より一般的には、ニューロン表現は埋め込み表現とある程度似ているように見え、どこでどのニューロンが発火するかに基づいて埋め込み空間を構成することも想像できる
  埋め込み上のすべては「単なる」処理にすぎない