- Tiny Recursion Model (TRM) は約7Mパラメータの小規模ニューラルネットワークでありながら、ARC-AGI-1で45%、ARC-AGI-2で8% という高い性能を達成
- 大規模言語モデルでなくても、再帰的推論方式を適用して難しい問題を解けることを実証
- このモデルは既存の Hierarchical Reasoning Model (HRM) の複雑な構造を単純化し、核心となる 再帰推論プロセスだけを残したもの
- TRMは人間の脳や複雑な数学的定理、階層構造がなくても、小さく効率的なモデルで回答品質を継続的に改善
- 本論文は、モデルの大きさよりも新しいアプローチが難しい問題の解決に重要であることを強調
概要
- この論文では、Tiny Recursion Model (TRM) という新しい再帰的推論モデルを提案
- TRMは非常に小さな 7Mパラメータで構成されたニューラルネットワークでありながら、ARC-AGI-1で45%、ARC-AGI-2で8% という意味のある精度を記録
- 本モデルは、大企業が数百万ドルを投じて学習させた大規模モデルでなくても、効率的な再帰推論によって複雑な問題を十分に解けることを実験的に示す
- 現在の業界では LLMの活用にのみ集中する過熱傾向があるが、TRMは 新しい推論と学習の方向性が重要であることを示唆
既存研究との違い
- 既存の Hierarchical Reasoning Model (HRM) では、生物学的な論理や複雑な階層構造、数学的定理(不動点定理など)への依存度が高かった
- TRMはこうした複雑性を取り除き、最も単純化された 再帰推論の中核メカニズムだけを残すことで、設計と実装の両方を直感的に単純化
- 人間の脳の構造や理論的背景がなくても、再帰的な自己反復プロセスを通じて回答精度を継続的に向上させることが核心
TRMの動作方式
- 入力質問 x、初期回答 y、隠れ状態 z を埋め込むことから開始
- 最大K回の 改善ステップ の間、次の2段階が反復的に実行される:
- i) 現在の質問 x、回答 y、隠れ状態 z から、隠れ値 z を n回反復的に更新する(再帰的 reasoning)
- ii) 現在の回答 y と新しい隠れ状態 z から回答 y を再度更新し、より良い回答を導出
- このような再帰的反復プロセスは、モデルパラメータを増やさずに回答品質を継続的に改善し、過学習のリスクも低減
結論
- TRM研究は、モデルサイズが成功に必ずしも不可欠な要素ではないことを実証
- 再帰的推論の原理だけでも、小規模ニューラルネットワークが大規模モデルに近い成果を達成できることを実験で示す
- 将来の人工知能研究において、効率的で創造的な新しい方向性の開発の重要性を強調
- より詳しい内容は 論文 を参照
1件のコメント
Hacker Newsの意見
ARC-AGI主催者によるHRM関連のブログ記事は、ぜひ誰にでもじっくり読むことを勧めたい。
同じデータ拡張や「test time training」の条件なら、ベースラインのTransformerでも、HRMで報告された「すごい成果」にかなり近い結果が出ることが示されている。
この論文もARC-AGIについて、似たような条件で自らを比較しているように見える。
私も、より小さいモデルで優れた推論性能を得たいと思っている。
ただし、まずARC-AGIが何を評価しているのか、商用LLM同士の比較で使われる一般的な設定は何か、そしてHRMやこの論文で使われている特殊な設定は何かを理解する必要がある。
ベンチマークの命名は過度な期待を招きがちで、HRMにも今回の論文にもその傾向が見られる。
HRM分析記事を細部まで読み込みすぎる必要はなく、TRMはHRMに比べて構造が disentangled なので、ablation はずっとやりやすい。
arcprizeのHRMブログの本当の価値は、ablationテストの重要性を強調している点にあると思う。
ARC-AGIは、あらゆるモデルのためのチャレンジとして設計されたものだ。
LLM級の大規模言語モデルの推論力がなければ解けないと想定していたが、それは誤解だったようだ。
聞きたいのは、HRMやTRMはARC-AGIサンプルの少量データセットで特化訓練されている一方で、LLMはそうではないのか、という点だ。
あるいは、どんな違いを強調しているのかが気になる。
「基本Transformer」というよりは、「recurrent構造を備えたTransformer風アーキテクチャ」だ。
この方式は依然として面白い実験テーマではある。
確かに利点はあるが、実際により良いTransformerだとは思わない。
今受けているほどの過剰な注目は、少し行き過ぎに感じる。
今回の話を見て、あらためてFinite Impulse Response(FIR)フィルタ(従来のLLM)と、Infinite Impulse Response(IIR)フィルタ(再帰モデル)との類似を思い出した。
優れた比喩でも独創的でもないが、FIRでは同様のカットオフ特性を得るために、IIRよりはるかに多くの係数が必要になる。
たとえばwindow design methodでIIRをFIRに変換でき、その場合は再帰構造を展開して有限の深さで止めることになる。
これと同様に、TRMをアンロールすると、従来のLLMアーキテクチャからglobal feedbackだけを除いた attention+ff block の反復構造になる。
さらにTRMは、実際のIIRとは異なり有限のカットオフを実装しているので、構造的にはFIR/LLMのほうに近いようにも見える。
TRMを同様に展開した構造と比較してみるのも面白そうだ。
もっとも、睡眠不足の妄想から出た考えかもしれない。
既存のディープシーケンスモデルの大半の隠れ層がある固定点に収束するという観察から出発し、いっそ root finding で固定点そのものを求めるやり方だ。
このアプローチは、無限深さの(weight-tied な)フィードフォワードネットワークを回すことと等価で、implicit differentiation によって逆伝播も可能になる。
(arxiv論文リンク)
Deep equilibriumモデルの面白い点は、たった1つの層でも、何層も積んだディープラーニングネットワークと等価になりうることだ。
必要なのは再帰性だけだ。
タスクの難しさに応じて反復回数を自ら調整する。
教育目的でHRMを実装し、経路探索で良い性能を得た。
その後ablation実験をしてみたところ、ARC-AGIチームと同じ結論、つまりHRMアーキテクチャ自体はあまり役に立っていない、という結論に達した。
少し残念ではある。
latent space reasoning には何か可能性があると思っている。
実装リポジトリ
再現と経験共有は本当に重要だ。
arXiv論文で示された結果が、本当にスケールするのか気になる。
これが実アプリケーションにも通用するなら、確かに革新的だろう。
一方で、もしそうだとしたら、現在AIデータセンター設備に投じられている天文学的な投資額が一瞬で無意味になるかもしれない、という面白い想像もしてしまう。
(もちろん長くは続かないだろうが)
HRMを語るなら、arcprizeのHRM分析記事は必ず参照すべきだ。
今回の論文はHRMを単純化したバージョンに見え、まさにこの分析記事のablation研究も参考にしているようだ。
HRMは、通常のtransformer LLMのように広く適用できる構造ではない、という点も重要だ。
少なくとも現時点で、一般的な生成AIタスクにHRMが有効だった証拠はない。
論文を読んでいるところだが、今回の構造もHRMと同様の課題(たとえばARC-AGIのような空間推論)に適しており、より汎用的なアーキテクチャへの統合が必要な状況に見える。
この場合はジェボンズのパラドックス(Jevon’s paradox)が当てはまると思う。
AIや電力の単価が下がれば、需要はむしろ増える。
AIバブルが、AI技術が良くなりすぎて効率が極端に上がった結果として崩壊する、という展開はもっともらしい。
AIデータセンター設備投資が無意味になりうる、という話について。
GPU計算はテキスト推論専用ではないし、とくに動画生成の需要は、たとえ革新が起きても、しばらく飽和しにくいと思う。
実際にそのような成果が出れば、業界はほぼ即座にこの方式を取り入れて、さらに大きく強力なモデルを訓練する方向へ進むだろう。
「7MパラメータのTRMがARC-AGI-1で45%、ARC-AGI-2で8%のテスト精度を達成し、これはDeepseek R1、o3-mini、Gemini 2.5 ProのようなほとんどのLLMを上回り、パラメータ数は0.01%未満」
本当に印象的だ。
ちなみに構造的には、Jeff Hawkinsの『On Intelligence』で提案されたHierarchical Temporal Memoryに似ているように感じる。
(もちろんsparsityの特性はないが、階層的・時間的な要素は似ている)
HTMウィキ, Numenta
要約
Hierarchical Reasoning Model(HRM)は、2つの小さなニューラルネットワークを異なる周期で再帰的に回す斬新なアプローチだ。
生物学的着想に基づいて設計されており、小さなモデル(2700万パラメータ)と小さく少量のデータ(およそ1000件)で、Sudoku、Maze、ARC-AGIのような難しいパズル系タスクにおいて大型LLMを上回る。
まだ完全に理解された構造ではなく、性能も最適とは限らない。
私たちは、はるかに単純な再帰的推論方式であるTRM(Tiny Recursive Model)を提案し、このモデルは2層の小さなネットワークでありながら、HRMよりはるかに優れた汎化性能を示す。
わずか7Mパラメータで大型LLMを上回る(ARC-AGI-1で45%、ARC-AGI-2で8%のテスト精度、パラメータ数は0.01%未満)。
ただ、何か隠れた限界があるのではないか、と気にもなる。
ARC問題でrecurrenceの効果が良い結果を出しているのを見ると興味深い。
recurrence に関心があるなら、このモデルを別の問題に適用した以下の論文も参考になる。
全体として、transformer RNN系は好みだ。
本質的には、EBMがエネルギーランドスケープを学習し、解へと引き込まれていく構造だと思う。
離散的な問題を徐々に convex に解いていくような感触がある。
neural cellular automata や flow matching/diffusion との共通点も思い起こさせる。
この方式は制御問題にも有望だ。
状態空間の中を転がり続け、各ステップで有効なアクションだけを選ぶようなものだ。
これって本質的には neuralese Chain-of-Thought(CoT)と同じではないか、という気がする。
z/z_L を reasoning embedding と明示的に呼んでいて、これが再帰過程を経て変化したり維持されたりしながら、出力 embedding(z_H/y)を徐々に洗練していく役割を果たしている。
まさに neuralese CoT/推論チェーンなのではないかと思う。