階層的推論モデル
(arxiv.org)- 階層的推論モデル(Hierarchical Reasoning Model) は、AIの複雑な目標指向行動の実行過程において、従来のLLMベースのChain-of-Thought手法の限界(不安定なタスク分解、大量のデータ要求、遅延の問題)を克服する
- 人間の脳の階層的処理という概念に着想を得て、HRMは高次の抽象的計画を担う高水準モジュールと、詳細な演算を高速に処理する低水準モジュールから成る新しい再帰構造を導入する
- HRMは、約2,700万パラメータと1,000個の学習サンプルだけでも、高難度の推論問題で卓越した性能を示す
- 事前学習やChain-of-Thoughtデータがなくても、複雑な数独や大規模迷路の最適経路探索などでほぼ完全な精度を達成する
- HRMは既存の大規模モデルと比べて高い効率性と性能を示し、汎用計算および汎用知能システムの転換点となる可能性を示している
概要
AI分野において推論(reasoning) は、複雑な目標指向行動の設計と実行の過程として重要な課題である。既存の大規模言語モデル(LLM)は主にChain-of-Thought(CoT) 手法を用いるが、これは脆弱なタスク分解、大量のデータ要求、高い遅延といった限界を抱えている。
- 人間の脳の階層的・マルチタイムスケール処理構造に着目し、Hierarchical Reasoning Model(HRM) が提案された
- HRMは**2つの従属的な再帰モジュール(高水準/低水準)**で構成され、単一の順方向パスで中間過程の明示的な監督なしに逐次推論を行う
- 2,700万パラメータで1,000個のサンプルのみを使用して最先端性能を示す
既存のディープラーニング・LLMの構造的限界
- ディープラーニングはネットワークの深さを積み重ねて表現力を高める方式から出発したが、実際のTransformerベースのLLMは構造が浅く、深さに限界がある
- 固定深度のTransformerは、複雑な論理推論やアルゴリズム問題において計算複雑性に根本的な制約を受ける
- Chain-of-Thoughtは人間が直接定義した言語ベースの段階的分解に依存するため、誤りや順序の誤りによって推論全体が容易に崩れる
- CoTは大量のデータとトークン生成、低速な動作という問題も引き起こす
HRMの設計原理
人間の脳の階層的・マルチタイムスケール処理を模倣して設計
- 階層的処理: 脳は上位・下位領域で情報を階層的かつ時間的に分けて処理する
- タイムスケールの分離: 上位領域はゆっくり、下位領域は速く動作し、効率的な制御を可能にする
- 再帰接続: 反復的な逆フィードバックを通じて内部表現を微調整しながら、深い推論を実現する
HRMモデルアーキテクチャ
- 入力ネットワーク、低水準再帰モジュール、高水準再帰モジュール、出力ネットワークで構成される
- 入力はベクトルに埋め込まれる
- 低水準モジュールは、自身の前状態・高水準の現在状態・入力に基づいて複数回更新される
- 高水準モジュールは、1つのcycleが終わるたびに低水準モジュールの最終状態を受け取り、1回だけ更新される
- 最後に高水準モジュールの状態から予測値を算出する
階層的収束(hierarchical convergence)メカニズム
- 既存のRNNは収束が速すぎて、追加演算が無意味になるという問題がある
- HRMでは低水準RNNが各cycleごとに局所的平衡点まで安定して収束した後、高水準モジュールが新たなコンテキストを提供し、低水準モジュールが再始動する
- 階層的収束構造のおかげで深い(多段階の)演算が可能となり、収束速度も適切に制御される
1ステップ近似勾配学習
- BPTT(Backpropagation Through Time) に依存すると、多数の段階の状態を保存する必要があり、メモリ負荷が大きい
- HRMは高水準/低水準モジュールそれぞれで最後の状態だけを用いて勾配を近似して学習することで、メモリ使用量O(1) を維持し、生物学的にも現実的な方式を実現する
- 数学的にはDeep Equilibrium Model(DEQ) の原理に基づく
ディープスーパービジョン(deep supervision) & 適応的計算時間(ACT)
ディープスーパービジョン
- 周期的なフィードバックを提供し、各forward pass(segment)ごとに出力を算出して、各segmentの学習損失を別々に計算する
- 次のsegmentへ渡す際に状態をグラフから分離(detach)して、深い再帰構造の安定性と性能を高める
適応的計算時間(ACT)
- 人間の自動的・意図的な思考切り替え原理を導入し、Q-learningによってsegmentの反復回数を学習ベースで動的に決定する
- Q-headが各segmentごとにhalt/continue行動のQ-valueを予測する
- Q-learningは予測精度と最適な終了地点を同時に考慮して全体損失を計算する
性能およびアーキテクチャの特徴
-
Sudoku-Extreme(9x9)や大規模迷路(30x30)など、既存のCoT方式モデルが失敗した問題も、HRMは約1,000件のデータでほぼ完全に解決する
-
ARC-AGI(Abstraction and Reasoning Corpus)ベンチマークで、27Mパラメータのみで40.3%の性能を達成(CoTベースのo3-mini-high 34.5%、Claude 3.7 8K 21.2%)
-
推論段階で計算量(steps)だけを増やして追加の性能向上が可能であり、アーキテクチャの追加修正や再学習なしに計算リソースを活用できる
-
HRMはTransformerベースのsequence-to-sequence構造を内部的に活用しており、
- 埋め込み層の後で、低水準/高水準モジュールの両方にencoder-only Transformerブロックを使用
- 最新LLMの機能(Rotary Positional Encoding、Gated Linear Units、RMSNormなど)を適用
- パラメータにはtruncated LeCun Normal初期化方式を使用し、Adam-atan2オプティマイザ + 一定の学習率を活用
結論
- HRMは、生物学的発想に着想を得た階層的再帰構造と、効率的かつ深層的な学習法によって、少ないデータと少ないパラメータでも既存方式を上回る汎用推論能力を実証した
- ディープラーニング/LLMの深さの限界を超える汎用計算および知能システムへの発展可能性を示す重要な事例である
1件のコメント
Hacker Newsのコメント
要旨と導入部をざっと読んだ限りでは、階層的推論(HRM)モデルの結果は本当に驚異的に見える
27Mパラメータのモデルが「ゼロから」1,000データポイントだけで学習されるという点はかなり疑わしい
その通り!
「T段階が終わった後、上位モジュール(Hモジュール)が下位モジュールの結果状態を受け取って更新を行い、その際に下位モジュールの計算経路を新たに開始させ、新しい収束段階を誘導する」
hlm/llmの構造分割という話を読んだ瞬間、人間の脳の構造が思い浮かんだ
懐疑的な視点は必要だと言っている
著者らのコードは https://github.com/sapientinc/HRM で公開されている
機械学習論文では健全な懐疑的視点が不可欠だ
再現実験と結果比較によって懐疑的検証を行うのが最善だと思う
まだ査読が行われていないというだけで評価を下すのは早計だ
論文が出たばかりの段階でpeer reviewまで期待するのは、プロセスをよく分かっていないからだと感じる
私は認知心理学者だが、こういうAIの方向性は以前から必要だと考えてきた
私の理解が正しければ、HRMは1,000個のSudoku(パズル、解答)ペアを見て、自力でルールを学習する
その後、見たことのない新しいパズルを55%の精度で解ける
100万例で訓練すれば、ほぼ完璧に近くなる
事前学習が一切ないという点で驚きだ
一方でAlphaZeroはルール(チェス・囲碁)を内蔵し、戦略だけを学習するが、HRMはルール自体も直接学ぶ
自分でも GitHubリポジトリ を確認してみるつもり
AlphaZeroはルールを内蔵しているが、MuZeroおよび後続モデルはルールを内蔵せずに動作する
実際にソースコードで試した結果:
pyproject.tomlのほうが望ましい)(本当に1,000件というわけではない)
HRMモデルがMoE(Mixture of Experts)とまもなく結合されるのではと期待しつつ、少し怖くもある
LLMをさらに強力にしようとする経済的圧力は非常に大きいので、こうした結合は数か月以内にも起こり得ると思う
論文はsudoku解法のようなパズル問題しか扱っておらず、質疑応答やLLMの主要応用分野には触れていない
次世代LLMとの統合を論じていないのは惜しい
MoEは概念クラスタと関係があるが、今後は概念の深さ・階層数・学習時間なども潜在空間(latent space)に含める必要があり、これは数学の本を読むときと短い記事を読むときで読み方が変わるのに似ている
HRMは、少数のルールが複雑に絡み合うパズル向けに設計されたものだ
主にSudoku以外の応用や限界についての議論がない点では、私もやや疑問を感じる
論文をざっと見たところ、MoE LLMシステム(オートレグレッシブ、拡散、エネルギーベースなどどの方式でも)もHRM構造で階層的にネストできそうだ
神経科学的な着想に基づいている点を高く評価しており、論文全体として特に問題になる内容はなさそうに見える
自分では複製実験まではしていないが、著者らが作ったのは、少なくとも汎用的になり得るconstraint-satisfaction(制約充足)問題ソルバーだ
少数の例だけを見て制約ルールまで学習するシステムであり、本当ならそれだけでも十分に面白い
ただ、CoTモデルとの直接比較はそれほど説得力があるとは感じない
CoTモデルは原理上どんな複雑な問題でも解けるが、HRMは特化したパズルごとに別途訓練が必要で、汎用性を主張するのは難しい
例えば、チェスエンジンのStockfishがLLMよりチェスに強いからといって、Stockfishのほうがより「知的」だとは言えないのと同じ感覚だ
良いアイデアではあるが、論文には少しマーケティング的な誇張も感じた
同意する!
CoTモデルが本質的にどんな複雑なタスクでも解けると言っていたが、その根拠が気になる
この論文が本当なら影響は非常に大きいはずなので、引き続き注意深く見ている