2 ポイント 投稿者 GN⁺ 2025-05-13 | 1件のコメント | WhatsAppで共有
  • 研究チームは、脳の神経細胞が計算においてタイミングと同期を活用していることが、現代AIで見落とされてきた中核だと指摘
  • Continuous Thought Machine(CTM) アーキテクチャを導入し、動物の脳の時間ベースの神経ダイナミクスを実際のモデルに取り入れた
  • CTMは非同期的な内部思考次元、個別ニューロン単位のモデル、そしてニューロン間同期の表現を用いて情報を処理する
  • さまざまな実験で適応的な計算能力、神経同期ベースの記憶力、強い汎化能力を確認
  • CTMアーキテクチャの解釈しやすさ、生物学的妥当性、多様なタスクへの適合性を実証

tl;dr

  • 脳のニューロンが計算に用いるタイミングと同期の特性は、生物知能の柔軟性と適応力の中核である
  • 現代AIは効率性と単純さのために、こうした時間ベースの特性を捨てている
  • 研究チームは、ニューロンのタイミングが重要であるという生物学的妥当性と、現代AIの効率的な実装との間の溝を埋める方法を見いだした
  • この結果は非常に意外で有望であることを示している

Introduction

  • Neural Network(NN) はもともと生物学的な脳に着想を得ていたが、今日のNNは実際の脳とは大きく異なる構造とダイナミクスを持つ
  • 現代のNNは時間的ダイナミクスを省略することで大規模ディープラーニングを可能にしたが、これは生物学的基盤から離れたものでもある
  • 脳はスパイクタイミング依存可塑性(STDP) やニューロン同期など、複雑な神経ダイナミクスを利用している
  • こうした時間的処理原理は現代AIには不足しており、人間レベルの柔軟な知能へ発展するうえで障害となっている
  • したがって時間処理機能は人工知能の中核要素であるべきだ

Why do this research?

  • 現代AIの高い性能にもかかわらず、柔軟な人間の認知や汎用性との本質的な差が存在する
  • 人工知能が人間の脳以上の達成を成し遂げるには、神経活動とタイミングを積極的に模倣する必要がある
  • 本研究ではContinuous Thought Machine(CTM) を通じて、ニューロンのタイミングを中核的要素として導入する
  • 主な貢献は、内部思考次元の分離、個別ニューロン単位の神経モデル、そして同期ベースの表現構造である

Reasoning models and recurrence

  • AIは単純な入力-出力マッピングから離れ、より能動的な推論モデルへと進化しつつある
  • 既存のRNN系の再帰構造は近年Transformerに置き換えられたが、再帰性そのものはモデル複雑性の拡張に有用である
  • 現代のテキスト生成モデルなどはテスト時に中間生成 (Recurrence) を用いており、これは追加の計算と柔軟性をもたらす
  • CTMは従来方式と異なり、内部で分離された漸進的思考次元、個別ニューロンレベルのタイミング、同期そのものを課題解決の表現として活用する

Method

構造概要

  • CTMはデータに対して内部的に神経活動が展開される構造である
  • 各段階ごとに pre-activation の履歴を収集し、Neuron Level Model(NLM) に入力する
  • 複数ニューロンの post-activation 履歴をもとにニューロン同期行列を計算し、強力な同期表現を生成する
  • 同期表現はモデルの観測と予測の中核的な潜在ベクトルとして用いられる

詳細構造

1. Internal recurrence(内部再帰)

  • 内部再帰次元を活用し、思考の進行が展開するための次元を別に設ける
  • 各内部 tick は外部時系列データとは無関係に、独自の思考単位として動作する

2. Neuron-level models(ニューロン単位モデル)

  • 各ニューロンはパーソナライズされたMLP構造を持ち、pre-activation の短い履歴を入力として post-activation を生成する

3. Synchronization as representation(同期表現)

  • 一定期間内のすべての post-activation からニューロン同期行列を計算し、これを中核的な潜在表現/行動ベクトルとする

入力データとの関係

  • データは内部再帰と同期を中心とした処理方式を補完的に利用する
  • 同期状態に応じて入力データの観測と予測が行われる

Internal ticks: 思考次元

  • CTMは独自の思考タイムラインを持ち、データの順序とは無関係に内部で反復的に情報を更新・精緻化する
  • この次元で知的活動の展開が生じる

Recurrent weights: Synapses

  • U-NETスタイルのMLPを通じて pre-activation を算出し、直近M個の値を保持する
  • 各ニューロンは個別MLPで履歴ベクトル (pre-activation 時系列) を受け取り、post-activation を算出する

Synchronization as a representation

  • ニューロン間同期行列によってモデルは外部と相互作用する
  • 同期値は実際の行動指標 (出力、観測、attention query など) に直接使用される
  • モデル幅Dが大きくなるほど、表現力と情報量が二乗的に増加する特徴を持つ
  • attention などの入力データモジュールと結合することで、さらに強力な情報処理能力を示す

Loss function

  • 各内部 tick ごとに出力を算出し、それに対応するloss と確信度 (1-正規化エントロピー) を計算する
  • 全体の loss は最小損失時点と最大確信時点を動的に集計し、問題難易度に応じた適応的学習を促す

Experiment: ImageNet

Demonstrations

  • CTMは画像データに対して多様な attention head と神経同期を活用して予測する
  • 精度、calibration、確信しきい値ごとの多様な指標を可視化する

Results

  • CTMはadaptive computeを通じて思考段階を調整し、一定段階以降は追加 benefit が小さいことを観察した
  • 16個の attention head、各段階ごとの class 予測/精度、そして neuron activity をあわせて可視化した

Discussion

  • CTMはデータとの直感的で柔軟な相互作用を強調する
  • ニューロン同期ベースの表現により、視覚認識においても既存方式と明確に区別される
  • 時間(TIME) 要素が、人間が情報を処理する方法と根本的に結びついていることを示唆する

Experiment: Solving 2D Mazes

The why and the how

  • 2D迷路解きはツールなしではニューラルネットワークモデルにとって非常に難しい課題である
  • CTMは直接経路予測 (L/R/U/D/W) 方式で学習され、attention パターンが意図的に実際の経路と一致する
  • 汎化テストでは複雑で長い迷路も高い精度と汎化性能で解き切る

Results & Discussion

  • CTMは最長経路においても既存ベースラインに比べて圧倒的な性能を示す
  • 人間に似た戦略的な内部 world modelを形成し、単純な記憶ではなく真の reasoning 能力を持つことを示した

A World Model

  • position encoding なしでも視覚情報だけで内部環境モデルを生成して問題を解決する

Experiment: Parity

  • 二値シーケンスの入れ子になったパリティ (偶数/奇数和) を、全入力が与えられる条件で予測するよう訓練した
  • 75段階以上の内部思考 tick を用いると、CTMは100%の精度に到達できる
  • LSTMは内部思考 tick が増えると学習が不安定になる

Learning sequential algorithms

  • attention head の動きとニューロン活性パターンから、CTMが逆方向/順方向のデータ走査戦略をそれぞれ獲得していることが分かる
  • これは戦略的計画(Planning)と段階的実行能力の証拠である

Experiment: Q&A MNIST

Memory via Synchronization

  • MNIST Q&A課題でCTMの長期記憶/想起能力をテストする
  • 入力画像がニューロン活性履歴ウィンドウから外れても、同期によって長期記憶情報を保持・想起できる

Results & Generalization

  • 内部思考 tick 数の増加に伴って性能が向上し、複雑な質問や長さに対する汎化能力も卓越している
  • LSTMは tick が多いと不安定だが、CTMは一貫して学習・推論する

Additional experiments

CTM versus humans

  • CIFAR-10で人間、フィードフォワード、LSTM、CTMの性能を比較
  • Calibration (確率予測の一致度) ではCTMが人間を上回る
  • 神経同期ダイナミクスは従来方式と異なり、非常に多様で複雑な内部特性を示す

CIFAR-100, ablation studies

  • モデル幅が広いほどニューロンの多様性/ダイナミクスが増加することを観察
  • 内部 tick 数に応じて、課題ごとに異なる内部思考過程 (「二つの山」の分布) が現れる

Sorting real numbers

  • 30個の実数を並べ替える実験で、CTMは値の間の距離/ギャップに応じて内部計算時間 (待機 tick) が変化する emergent behavior を示した

Reinforcement Learning

  • MiniGrid、CartPole などのRL環境で、CTMは内部の持続的思考単位を活用して環境との相互作用と方策決定を行う
  • LSTMと似た最終性能を示しつつ、連続的な思考記録を通じた効果を実証した

Conclusion

  • CTMは生物学的妥当性とAI効率性の融合を新しい形で達成する
  • ニューロン単位モデルの導入、神経同期ベースの新たな表現方式を活用し、これまでに見られなかった表現能力を実現した
  • 画像分類、迷路解き、記憶、並べ替え、RLなど多様なタスクにおいてアーキテクチャの一貫性と高い適応力を示す
  • 脳科学と機械学習が持つシナジー、そして時間・同期中心の思考マシン設計の重要性を実証する

1件のコメント

 
GN⁺ 2025-05-13
Hacker Newsのコメント
  • この論文が気がかりなのは、既存の機械学習分野には生物学的に妥当なスパイキングニューラルネットワークや時間依存の人工ニューラルネットワークに関する研究がすでに非常に多くあるにもかかわらず、論文の用語やアプローチがその膨大な先行研究を十分に認めていないように感じられる点であり、特にシナプス統合段階を「思考(thinking)」と呼んでいることは人々に混乱を与えうると思う。思考とは、普通の人が考えるようなアイデアの生成、評価、修正の反復という過程だが、論文ではこれを単一ユニットのプロセス水準に当てはめている。これは既存のANNや機械学習の用語からも大きくかけ離れている。「思考」というこの表記は適切ではないように感じる。すべての引用を確認したわけではなく、馴染みのある研究の流れに対する即時の反応を書いただけである

    • 申し訳ないが、もともとこのコメントに返信しようとしていたものの、別の返信を親コメントのスレッドに残した。論文が生物学的スパイキングネットワークを模倣しようとする試みはかなり緩やかにしか見えず、実際の主な貢献は出力行列の転置とのドット積を使った点で、残りは入力に対する拡散/アテンション手法である。入力アテンションと出力アテンションを組み合わせて段階的な再帰モデルを作った形だ
    • この10〜20年のあいだ、神経科学関連の研究を認めた機械学習研究者たちは自己顕示だという批判をかなり受けてきたように思うので、特に驚きはない
    • この論文はまるで新しいアイデアであるかのように発表しているが、数十年にわたるスパイキングニューラルネット研究や類似分野にはほとんど言及していない
    • 生物学的着想を得たアルゴリズムの概念と実装について、最も示唆に富むと思う本や論文のリスト、あるいは簡単なレビューを共有してもらえるとありがたい
    • 著者らは単一のシナプス統合を「思考」と呼んでいるのではなく、外部入力ごとに「内部ティック」としてネットワーク全体の内部ループでその用語を使っていると述べており、「思考」に似たものだと明示している
    • この論文、もしかしてJürgen Schmidhuberが書いたのだろうか
  • この重要なテーマに再び焦点が当たるのは非常にうれしい。生物の脳と身体の文脈では「時間」を線形なニュートン的時間として捉えがちだが、脳-身体システムで重要なのは、300msの「表象的現在」から音の位置を評価する細胞の50マイクロ秒のようなさまざまな「現在」の断片の中に、秩序だった行動と計算の順序を作り出すことである。条件的な時間性(temporality)についてもっと知りたければ、European Journal of NeuroscienceでJohn BickleがRW Williamsにインタビューした最近の論文を参照するとよい

  • この論文を読んだ感想としては、論文は生物学的/スパイキングネットワークとは実際にはまったく異なるように感じる。論文では入力の履歴を保持し、マルチヘッドアテンションを使って、過去の「プレシナプス」入力が現在の出力にどう反映されるかの内部モデルを作っている。これは少し修正したTransformerのように、入力履歴を保持してアテンションで出力を作る構造である。「同期化」も、ポストアクティベーション全体の内積を取って得ており、この内積結果の行列を出力空間に射影している。各タイムステップで正しい値を作るために複数の出力が掛け合わされる必要があるため、こうした結合を「同期化」と呼んでいるのだと思う。これは複数の出力値を行列としてまとめ、各値の個別性よりも組み合わせの重要性を強調する、一種の「疎性」誘導のように見える。この方式は、複数のサブシステムからの出力を内積で統合するアテンションの基本メカニズムである

    • 論文の弱点は、性能比較の対象がLSTM(単純な再帰モデル)に限られている点である。複数層の入力/出力アテンションだけでも類似した構造や性能が出せそうに思える。実際のTransformerは少し異なるが、論文で使われているinput attention + unet構造と大きな違いはない
  • 今週末に興味深いものが3つある。1) Continuous Thought Machine(生体脳に近い時系列エンコーディング神経網)、2) 「ゼロデータ推論」(膨大なデータで事前学習する代わりに直接の行為から学ぶAI)、3) Intellect-2(世界中に分散した強化学習アーキテクチャ)である。専門家ではない立場から見ると、シンギュラリティに一歩近づいたようにも感じる

    • 私にはそこまでには見えない。論文があまりにも多く、研究の方向性も多様なので、どれがdiffusion、transformer、AlphaZero、Chat GPT-3のような大当たりになるのか予測しづらい。急進的な進歩に見えても、こうした前進は膨大な研究と試行錯誤の積み重ねによって生まれる。3つの進歩がうまく結びつけばよいが、私にも分からない
    • 個々の論文にあまり大きな意味を持たせないほうがよいと思う。最良でも数多くの基盤研究を無視することになり、最悪の場合、バラ色の期待で一つのアイデアに過剰な期待を寄せることになる
    • Intellect-2とzero data reasoningはどちらもLLM上で動くアーキテクチャである(「ゼロデータ推論」という名前はむしろ誤解を招くかもしれない)。本当にLLMの革新を見たいなら、InceptionLabsがdiffusionモデルで推論を16倍向上させた方法を見るとよい。私たちの時系列強化学習アルゴリズムの性能は推論モデルと比べるとまだかなり劣っており、AIブームにもかかわらずロボティクスと自動運転は依然として壁にぶつかっている。この論文の手法にも可能性はあるが、誰かが用語をもう少し洗練させて咀嚼してくれたほうがよい。まだ大規模モデルほど報酬関数の抜け穴をうまく見つけてしまう現象があるため、多くの分野で役に立つAIの実現まではまだ遠いという気がする
    • 論文の実装を実際に動かしてみると、結果が論文で宣伝されているほど良くなかったり、コードが欠けていたりすることがよくある。AIハイプに振り回されないためには、論文の具体的な結果と限界を読み、コードがあれば入手して動かし、学習セット外の入力に対するテストもしてみる習慣が必要だ
    • 私も専門家ではないが、これを見て、まるでカメラ、アクチュエータ、バッテリーを発明したからもうすぐロボットが世界を支配する、と考えるのに似ていると思う。つまり、これは飛躍ではなくベビーステップだ
    • 批判が退けられるわけではない。特に広く知られた論文やプロジェクトそのものがtake-offやAGIのような画期的進歩だという点には大いに異論がありうる。ただ、こうした論文はより大きな研究の方向性の代理指標かもしれない。つまり「ベビーバニー」が一貫した方向に小さなジャンプを続けているようなものだ。どの瞬間をジャンプと呼ぶかは見る人次第だが、いずれにせよウサギは前に進んでいる
  • スパイクタイミングや同期化のような時系列符号化メカニズムを実装するのは非常に難しく、そのため現代のニューラルネットワークは時間的ダイナミクスよりも単純さと計算効率に焦点を当てている。本当のタイムドメインをシミュレートすることは、ハードウェアの観点からも非常に難しい問題である。特に別個のハイパーパラメータ軸が増えるため、有効なパラメータの組み合わせを見つけるのがほぼ不可能になる。計算効率の良い構造を探すほうがはるかに速いので、将来のタイムステップでスパイクが発生するなら優先度キューのようなイベント構造が生じて計算量が一気に増える。本当に「ハードリアルタイム相互作用」が目的なら別だが、実用や製品の観点では、こうした構造を追いかける意味はあまりないと思う。STDP(スパイク時差依存可塑性)によってオンラインの教師なし学習が可能だという点はいまでも非常に魅力的だが、当面はシリコン上では道がなさそうだ。専用ハードウェアを使うのは、ハイパーパラメータの一部をコード中の定数として埋め込むようなもので、確実性を保証しにくく、資金も不足しがちになる

    • たとえば中規模のFF(フィードフォワード)アーキテクチャで入力バッチ1つを処理するのに100msかかるとして、CTM構造で10msをFF軸に使い、そこに10個の内部「ティック」を掛けたらどうなるだろうか。数字は大まかだが、結局は明示的な時間軸に対する帰納バイアスに本当に意味があるのかという問題である。そのような構造も同じ探索難易度を持つのではないかと思う
  • こうした機械のアイデア自体は完全に新しいものではない。2002年の論文でLiquid State Machines(LSM)が紹介されており、LSMは連続入力をスパイキングニューラルネットワークに供給し、ネットワーク全体のニューロンと接続されたdense layerでliquid stateを読み出す方式である。2019年の論文ではLSMをAtariゲームのプレイに用いており、ときには人間を上回ったものの常にそうだったわけではなく、従来のニューラルネットと似たような失敗傾向も見られた。従来型ニューラルネットワークに比べて性能が特別に高いわけではなかった。私は、入力(たとえば音声)を連続的に処理して連続的に出力し、脳のplasticityの原理だけを適用し(逆伝播なし)、そうしたニューラルネットワークを研究する人がもっと増えてほしいと思う。私自身も試したことはあるが、脳の動作を十分に理解していないからなのか、まだ完璧な答えは分からない

  • 皮肉なことに、このWebページはfirefox iOSでずっとリロードされ続ける

    • 私のブラウザではそもそも開かない
  • 次世代モデルの鍵は「一緒に発火するニューロンは一緒に結びつく(neurons that fire together wire together)」という原理になるだろう。スパイキングニューラルネットワークは代替アプローチとして非常に興味深いものを提供していると思う