階層的推論モデル

(arxiv.org)

6 ポイント投稿者 GN⁺ 2025-07-28 | 1件のコメント | WhatsAppで共有

階層的推論モデル(Hierarchical Reasoning Model) は、AIの複雑な目標指向行動の実行過程において、従来のLLMベースのChain-of-Thought手法の限界（不安定なタスク分解、大量のデータ要求、遅延の問題）を克服する
人間の脳の階層的処理という概念に着想を得て、HRMは高次の抽象的計画を担う高水準モジュールと、詳細な演算を高速に処理する低水準モジュールから成る新しい再帰構造を導入する
HRMは、約2,700万パラメータと1,000個の学習サンプルだけでも、高難度の推論問題で卓越した性能を示す
事前学習やChain-of-Thoughtデータがなくても、複雑な数独や大規模迷路の最適経路探索などでほぼ完全な精度を達成する
HRMは既存の大規模モデルと比べて高い効率性と性能を示し、汎用計算および汎用知能システムの転換点となる可能性を示している

概要

AI分野において推論(reasoning) は、複雑な目標指向行動の設計と実行の過程として重要な課題である。既存の大規模言語モデル(LLM)は主にChain-of-Thought(CoT) 手法を用いるが、これは脆弱なタスク分解、大量のデータ要求、高い遅延といった限界を抱えている。

人間の脳の階層的・マルチタイムスケール処理構造に着目し、Hierarchical Reasoning Model(HRM) が提案された
HRMは**2つの従属的な再帰モジュール（高水準/低水準）**で構成され、単一の順方向パスで中間過程の明示的な監督なしに逐次推論を行う
2,700万パラメータで1,000個のサンプルのみを使用して最先端性能を示す

既存のディープラーニング・LLMの構造的限界

ディープラーニングはネットワークの深さを積み重ねて表現力を高める方式から出発したが、実際のTransformerベースのLLMは構造が浅く、深さに限界がある
固定深度のTransformerは、複雑な論理推論やアルゴリズム問題において計算複雑性に根本的な制約を受ける
Chain-of-Thoughtは人間が直接定義した言語ベースの段階的分解に依存するため、誤りや順序の誤りによって推論全体が容易に崩れる
CoTは大量のデータとトークン生成、低速な動作という問題も引き起こす

HRMの設計原理

人間の脳の階層的・マルチタイムスケール処理を模倣して設計

階層的処理: 脳は上位・下位領域で情報を階層的かつ時間的に分けて処理する
タイムスケールの分離: 上位領域はゆっくり、下位領域は速く動作し、効率的な制御を可能にする
再帰接続: 反復的な逆フィードバックを通じて内部表現を微調整しながら、深い推論を実現する

HRMモデルアーキテクチャ

入力ネットワーク、低水準再帰モジュール、高水準再帰モジュール、出力ネットワークで構成される
入力はベクトルに埋め込まれる
低水準モジュールは、自身の前状態・高水準の現在状態・入力に基づいて複数回更新される
高水準モジュールは、1つのcycleが終わるたびに低水準モジュールの最終状態を受け取り、1回だけ更新される
最後に高水準モジュールの状態から予測値を算出する

階層的収束(hierarchical convergence)メカニズム

既存のRNNは収束が速すぎて、追加演算が無意味になるという問題がある
HRMでは低水準RNNが各cycleごとに局所的平衡点まで安定して収束した後、高水準モジュールが新たなコンテキストを提供し、低水準モジュールが再始動する
階層的収束構造のおかげで深い（多段階の）演算が可能となり、収束速度も適切に制御される

1ステップ近似勾配学習

BPTT(Backpropagation Through Time) に依存すると、多数の段階の状態を保存する必要があり、メモリ負荷が大きい
HRMは高水準/低水準モジュールそれぞれで最後の状態だけを用いて勾配を近似して学習することで、メモリ使用量O(1) を維持し、生物学的にも現実的な方式を実現する
数学的にはDeep Equilibrium Model(DEQ) の原理に基づく

ディープスーパービジョン(deep supervision) & 適応的計算時間(ACT)

ディープスーパービジョン

周期的なフィードバックを提供し、各forward pass(segment)ごとに出力を算出して、各segmentの学習損失を別々に計算する
次のsegmentへ渡す際に状態をグラフから分離(detach)して、深い再帰構造の安定性と性能を高める

適応的計算時間(ACT)

人間の自動的・意図的な思考切り替え原理を導入し、Q-learningによってsegmentの反復回数を学習ベースで動的に決定する
Q-headが各segmentごとにhalt/continue行動のQ-valueを予測する
Q-learningは予測精度と最適な終了地点を同時に考慮して全体損失を計算する

性能およびアーキテクチャの特徴

Sudoku-Extreme(9x9)や大規模迷路(30x30)など、既存のCoT方式モデルが失敗した問題も、HRMは約1,000件のデータでほぼ完全に解決する
ARC-AGI(Abstraction and Reasoning Corpus)ベンチマークで、27Mパラメータのみで40.3%の性能を達成（CoTベースのo3-mini-high 34.5%、Claude 3.7 8K 21.2%）
推論段階で計算量(steps)だけを増やして追加の性能向上が可能であり、アーキテクチャの追加修正や再学習なしに計算リソースを活用できる
HRMはTransformerベースのsequence-to-sequence構造を内部的に活用しており、
- 埋め込み層の後で、低水準/高水準モジュールの両方にencoder-only Transformerブロックを使用
- 最新LLMの機能（Rotary Positional Encoding、Gated Linear Units、RMSNormなど）を適用
- パラメータにはtruncated LeCun Normal初期化方式を使用し、Adam-atan2オプティマイザ + 一定の学習率を活用

結論

HRMは、生物学的発想に着想を得た階層的再帰構造と、効率的かつ深層的な学習法によって、少ないデータと少ないパラメータでも既存方式を上回る汎用推論能力を実証した
ディープラーニング/LLMの深さの限界を超える汎用計算および知能システムへの発展可能性を示す重要な事例である

1件のコメント

GN⁺ 2025-07-28

Hacker Newsのコメント

要旨と導入部をざっと読んだ限りでは、階層的推論（HRM）モデルの結果は本当に驚異的に見える
- わずか1,000件の入出力例だけを使い、事前学習やChain-of-Thought（CoT）の教師あり指導なしでも、HRMがこれまでの最先端LLMでさえ対処できない問題を解いている点が印象的
- 例えば、複雑なSudoku（Extreme Full）や30x30迷路の最適経路探索で、ほぼ完全に近い精度を記録している（CoT方式はここでは精度0%にとどまる）
- Abstraction and Reasoning Corpus（ARC）AGIチャレンジでも、HRMは27Mパラメータ、30x30グリッド（900トークン）で40.3%の性能を達成し、はるかに大きいモデル群（o3-mini-high、Claude 3.7 8Kなど）を上回っている
- この論文はしっかり読んでみるつもり
27Mパラメータのモデルが「ゼロから」1,000データポイントだけで学習されるという点はかなり疑わしい
- また、なぜ同じ条件（同じデータ準備）で訓練した他モデルと比較しないのか理解できない
- 一方で彼らは汎用的な外部LLMとだけ比較しているが、LLMのほうはその1,000例を訓練に使っていない可能性もある
- このアプローチにはどこか過学習（overfit）の気配がある
その通り！
- HRMは相互依存する2つの循環モジュール（上位モジュール: 抽象的で遅い計画、下位モジュール: 高速で細かな演算）を活用している
- この構造のおかげで、HRMは少ないパラメータ（2,700万）と小さなデータセット（約1,000例）でも深い計算能力を持てる
- HRMは高難度ベンチマーク（Extreme Sudoku、Maze-Hard、ARC-AGI）で最新のCoTモデルを上回っている
- 例として、Sudokuで96%の精度、ARC-AGI-2では40.3%の性能でClaude 3.7やDeepSeek R1のような大規模モデルも超えている
- どうしてこんな結果が出るのか説明が必要だが……自分でもコンピュータで動かしてみるつもり
「T段階が終わった後、上位モジュール（Hモジュール）が下位モジュールの結果状態を受け取って更新を行い、その際に下位モジュールの計算経路を新たに開始させ、新しい収束段階を誘導する」
- 下位RNNが計算を終えると、上位モジュールが結果を評価し、下位RNNに新しいコンテキストを与えてループを繰り返す
- 下位RNNは反復的に誤差逆伝播（backpropagation）学習を行い、上位モジュールが周期的に介入して、より良い出力が出るまで調整する構造だ
- 「脳科学の証拠によれば、このような認知モードは前頭前野やデフォルトモードネットワークなど同じ神経回路を共有している。つまり脳は、課題の複雑さと報酬可能性に応じてこの回路の『実行時間』を動的に調整している」
- 著者らはこうした脳のメカニズムに着想を得た「適応的停止（adaptive halting）戦略」をHRMに導入し、つまり「速く／ゆっくり考える」戦略を適用している
- つまり、課題の難易度と与えられたデータに応じて計算資源の使用量を自動調整するスケジューラということ
- 論文の随所で実際の脳との類似性に言及しているのがとても気に入った
- AGIは、こうした原始的なプリミティブを極端な複雑さで組み合わせ、協力・競争・意思疎通・並行性・特化した無数の「モジュール」を活用して初めて実現できると思う
- 人間の脳もまた、このような方式でなければ進化的に認知機能を獲得できなかったはずだ。遅く低電力な生物学的組織にとって、これが唯一の解法だと気づいた
hlm/llmの構造分割という話を読んだ瞬間、人間の脳の構造が思い浮かんだ
懐疑的な視点は必要だと言っている
- 特に、誤差逆伝播を迂回するアイデアなどは非常に興味深い
- ただ、まだ査読（peer review）を経ていないように見えるし、結果セクションも評価方法が具体的でなく、数値情報がメイン図にしかない
- Benchmarks（ARC2）のリーダーボードと実際の数値も異なる（現在の上位勢は19%なのに、HRMは5%水準だ）
- https://www.kaggle.com/competitions/arc-prize-2025/leaderboard で直接確認できる
著者らのコードは https://github.com/sapientinc/HRM で公開されている
- AI/ML分野では、動作するコードが付属したプレプリント論文のほうが、正式な査読論文よりはるかに価値があると見なされることが多い
- プレプリントは誰でも検証・再現できる一方で、標準的なpeer reviewはごく少数の多忙な（しかも十分な報酬すらないこともある）査読者に依存している
- 著者の主張が本当なら、いずれ自然に認められるし、違うなら忘れ去られるだろう
- 実質的にはオープンソース的な分散・グローバル検証であり、粗さはあっても従来の論文査読よりずっと効果的だ
機械学習論文では健全な懐疑的視点が不可欠だ
- 論文数が増えたことで、従来型の査読は機能不全に陥っている
- レビュアーが実際には担当分野の専門性に欠けていたり、学生だったりすることも多い
- 実際のpeer reviewとは、arXivなどで他の専門家が実装し、結果を独立に再現し、後続論文で引用する過程のことだ
- このコメントスレッド自体が実際のpeer reviewだ
再現実験と結果比較によって懐疑的検証を行うのが最善だと思う
- 来月10日間の休暇があるので、ソースコードやデータセットなど著者らが何を公開しているのか確認して、自分で再現してみるつもり
まだ査読が行われていないというだけで評価を下すのは早計だ
- mamba1、mamba2の論文も最初はpeer reviewを経ていなかった
- ただし、強い主張には強い証拠が必要だという点には同意するし、今まさにローカルで結果の再現を試している
論文が出たばかりの段階でpeer reviewまで期待するのは、プロセスをよく分かっていないからだと感じる
- 研究をpeer reviewに回すには、まず「公開」するのが順序だ
私は認知心理学者だが、こういうAIの方向性は以前から必要だと考えてきた
- Fuzzy Trace Theory（ファジー・トレース理論）参照[1]。記憶は語単位（詳細）から要約（gist）までさまざまなレベルの表象を作り、それらを組み合わせて検索する構造になっている
- 要約的表象と詳細情報の結合が、強力な一般化や柔軟な想起経路を可能にする
- [1] https://pmc.ncbi.nlm.nih.gov/articles/PMC4979567/
私の理解が正しければ、HRMは1,000個のSudoku（パズル、解答）ペアを見て、自力でルールを学習する
- その後、見たことのない新しいパズルを55%の精度で解ける
- 100万例で訓練すれば、ほぼ完璧に近くなる
- 事前学習が一切ないという点で驚きだ
- 一方でAlphaZeroはルール（チェス・囲碁）を内蔵し、戦略だけを学習するが、HRMはルール自体も直接学ぶ
- 自分でも GitHubリポジトリを確認してみるつもり
- AlphaZeroはルールを内蔵しているが、MuZeroおよび後続モデルはルールを内蔵せずに動作する
  - MuZeroはAlphaZeroを上回る性能を示し、EfficientZeroは学習量まで削減している
  - Atariゲームなど多様な環境で優れている
- 実際にソースコードで試した結果:
  - 科学的再現性のため、ぜひライブラリのバージョンを明記してほしい（pyproject.toml のほうが望ましい）
  - 1,000件のSudoku例は、実際には手書きの置換アルゴリズムでデータ拡張されており、実質的には100万件規模のデータセットになっている
    （本当に1,000件というわけではない）
HRMモデルがMoE（Mixture of Experts）とまもなく結合されるのではと期待しつつ、少し怖くもある
- LLMをさらに強力にしようとする経済的圧力は非常に大きいので、こうした結合は数か月以内にも起こり得ると思う
- 論文はsudoku解法のようなパズル問題しか扱っておらず、質疑応答やLLMの主要応用分野には触れていない
- 次世代LLMとの統合を論じていないのは惜しい
- MoEは概念クラスタと関係があるが、今後は概念の深さ・階層数・学習時間なども潜在空間（latent space）に含める必要があり、これは数学の本を読むときと短い記事を読むときで読み方が変わるのに似ている
- HRMは、少数のルールが複雑に絡み合うパズル向けに設計されたものだ
  - ルールが少ないので小さなモデルでも学習でき、モデルが小さいから何度も反復実行してすべての相互作用を処理できる
  - 言語モデリングでは膨大なフレーズとその関係を保存しなければならないため、同様に小さなモデルでは難しいと思う
  - 幸い、言語のほうでは大抵、数回の演算ステップを経るだけでも実用的な結果が出る
  - LLM級の大きさのモデルをHRM方式の反復ループに載せると遅すぎて、実用は難しい
  - LLM本体と小型HRMを組み合わせて、制約充足タスクだけ別に処理することはできるかもしれない
- 主にSudoku以外の応用や限界についての議論がない点では、私もやや疑問を感じる
論文をざっと見たところ、MoE LLMシステム（オートレグレッシブ、拡散、エネルギーベースなどどの方式でも）もHRM構造で階層的にネストできそうだ
- これを組み合わせて、効率と品質に関する新しいベンチマークも作れるのではないかと思う
神経科学的な着想に基づいている点を高く評価しており、論文全体として特に問題になる内容はなさそうに見える
- 自分では複製実験まではしていないが、著者らが作ったのは、少なくとも汎用的になり得るconstraint-satisfaction（制約充足）問題ソルバーだ
- 少数の例だけを見て制約ルールまで学習するシステムであり、本当ならそれだけでも十分に面白い
- ただ、CoTモデルとの直接比較はそれほど説得力があるとは感じない
- CoTモデルは原理上どんな複雑な問題でも解けるが、HRMは特化したパズルごとに別途訓練が必要で、汎用性を主張するのは難しい
- 例えば、チェスエンジンのStockfishがLLMよりチェスに強いからといって、Stockfishのほうがより「知的」だとは言えないのと同じ感覚だ
- 良いアイデアではあるが、論文には少しマーケティング的な誇張も感じた
- 同意する！
  - 誇張気味の盛り上がりを抑える必要はあるが、この小さなモデルでこうした結果を出したのは驚きだ
  - 特定問題ではカスタムモデルのほうが効率も信頼性も高いのだから、汎用という名目で非効率な構造を強いる必要はない
- CoTモデルが本質的にどんな複雑なタスクでも解けると言っていたが、その根拠が気になる
  - 数学的な証拠があるのかも疑問だ
  - 個人的には、CoT自体が現在のLLMの限界を回避するための一種の小手先だと思っている
この論文が本当なら影響は非常に大きいはずなので、引き続き注意深く見ている
- 基本コンセプトは合理的に聞こえるが、第三者検証が出るまでは慎重に見守るつもりだ
- 実務で自分でも確認してみたい気持ちがある