自己改善する推論者を可能にする認知行動

(arxiv.org)

2 ポイント投稿者 GN⁺ 2025-03-08 | 1件のコメント | WhatsAppで共有

検証可能な問題で強化学習により言語モデルを自己改善させるとき、同じ条件でもQwen-2.5-3BはCountdownで大きく向上する一方、Llama-3.2-3Bはすぐに頭打ちになる
性能差は、初期モデルがすでに持っていた検証、バックトラッキング、下位目標設定、後ろ向き推論のような推論行動と結び付いている
Qwenは当初から検証とバックトラッキングをより自然に示したが、Llamaはこうした行動が不足しており、増えたテスト時計算を効率よく使いにくかった
Llamaに正答の有無よりも推論パターンを含む合成推論トレースでプライミングすると、強化学習中にQwenに匹敵する改善軌道を示す
OpenWebMathをフィルタリングして継続事前学習すると、Llamaにも必要な行動分布が誘導され、初期の推論習慣を設計することが自己改善性能に直接影響する

同じ強化学習でも分かれる自己改善能力

テスト時推論(test-time inference)は、言語モデルが複雑な問題でより長く、より慎重に「考える」ようにする方法として使われる
検証可能な問題に強化学習(RL)を適用してモデルを自己改善させるアプローチは新しくないが、従来の手法は数回の反復後に停滞し、テスト時計算を効果的に使う方法を十分に探れていなかった
Countdownゲームに同じ強化学習手順を適用したところ、2つの3Bモデルの差が大きく現れた
- Qwen-2.5-3Bは問題解決能力が大きく向上
- Llama-3.2-3Bは限定的な改善にとどまる
核心的な問いは、初期言語モデルのどの特性がその後の改善可能性を左右するのかにある
コードはGitHubリポジトリで公開されている

自己改善を助ける4つの推論行動

分析対象は、モデル出力から明確に識別できる4つの認知行動である
- 検証(verification): 答えや中間段階を体系的に確認する
- バックトラッキング(backtracking): 失敗したアプローチを捨てて別のアプローチに戻る
- 下位目標設定(subgoal setting): 問題を管理可能な段階に分ける
- 後ろ向き推論(backward chaining): 望ましい結果から出発して初期入力へさかのぼって推論する
これらの行動は熟練した人間の問題解決のやり方に似ている
- 数学者は証明の各段階を検証する
- 矛盾にぶつかるとバックトラッキングする
- 複雑な定理をより単純な補題に分ける
4つの行動は、言語モデルの一般的な線形推論を超えて、複数の経路を探索し修正する推論を捉えられる
他の認知行動も存在するが、この4つは定義が明確で、モデル出力から比較的容易に識別できる

QwenとLlamaの初期行動の違い

初期分析では、Qwenは必要な推論行動をより自然に示した
- 特に検証とバックトラッキングが際立っていた
Llamaは初期状態でこうした行動が不足していた
特定の推論行動が初期ポリシーに存在してこそ、長い推論シーケンスと増加したテスト時計算を効率的に活用できるという仮説が提示される
Figure 1は、Countdownにおける両モデルの性能、強化学習中の応答長の変化、特定の推論特性の出現傾向を比較している

行動プライミング: 正答より推論パターン

最初の介入は、Llamaに望ましい推論行動を含む合成推論トレースでプライミングする方法である
こうした例を見たLlamaは強化学習で大きく向上し、Qwenの性能軌道に匹敵する水準に達する
特にバックトラッキングを含む推論トレースが重要な役割を果たす
正しい答えがない解答でプライミングしても、適切な推論パターンが含まれていれば同様の性能向上が現れる
この実験で性能を分けた要因は正答そのものではなく、推論行動の存在である

継続事前学習で行動分布を変える

OpenWebMathデータを使った継続事前学習も実験対象となった
データは推論行動がより強く現れるようにフィルタリングされた
フィルタリング済みデータはQuery、Thought、Answer形式に再構成された
この方法でLlamaを学習すると、必要な行動パターンが誘導され、テスト時計算をより効率的に使えるようになる
結果として、Llamaの改善軌道はQwenに匹敵する水準へと変わる

初期の推論習慣が改善可能性を左右する

モデルの初期推論行動と自己改善能力の間には強い関係がある
QwenとLlamaの差は、同じ強化学習手順でも初期行動パターンによって結果が変わり得ることを示している
適切な推論行動を持つモデルは、追加計算を活用してより長い推論を効果的に実行する
こうした行動が不足するモデルは、同じ学習条件でもすぐに頭打ちになる可能性がある
初期推論行動を理解し誘導することは、問題解決能力を実際に改善するAIシステムの開発につながる

1件のコメント

GN⁺ 2025-03-08

Hacker Newsのコメント

「専門家の人間の問題解決者と、成功している言語モデルのどちらも使っている4つの中核的な認知行動――検証、引き返し、サブゴール設定、逆向き推論」というくだりが興味深い
AIをより良くしていくうちに、意図せず人間の知能もより良くする方法を見つけられるかもしれない
最近、試験勉強をしていて似たような個人的経験があり、練習問題を読みながらDeepseek R1の推論の仕方や性格をまねて声に出して話していた
長く詳細なR1の出力を大量に読んだことで、自分の脳が推論タスク向けに実質的にファインチューニングされたようなもので、その方法が試験で良い点を取るのに寄与したと思っている
- これはよく知られた方法。思考過程を言葉にすることは、声に出すにせよ文章にするにせよ、なんとなく流すのではなく実際に考えているかを確認するための昔からある戦略だ
  皮肉なことに、AIの利用がこうした能力を人々から奪うのではないかと心配している人たちも見た
  それでもここには可能性があり、AI研究をしながら人間の知能を改善する方法も見つかることを心から願っている
  悲観的に見ても、人々が無意識に使っているアプローチを可視化する程度にはなるだろうし、自分が何をしているのか分かれば、それをよりうまく訓練するのはずっと簡単になる
- 自分も、普段なら先延ばしにして無意識に任せていたであろうプログラミング問題にこの方法を使っている
  思考のステップを実際にすべて書き出すと、限られたワーキングメモリのせいで生じる誤った推論ステップや足踏み状態を整理するのに役立つ
  推論型AIが思考する様子を見てから、より厳密にやってみるようになったが、かなり有用な思考技法のように思えた
  こうした推論AIモデルは、自分の思考そのものをメタレベルで眺めさせてくれ、改善に使える道具を示してくれる
  自分だけがそう感じているわけではないと分かってうれしい
- 声に出して考えるのは昔からある習慣で、自分自身に対する「ラバーダック・デバッグ」と同じだ
  問題を解くときに独り言を言う先祖代々の血筋にいる者として、監督官のいる試験では時々ちょっとした不利にもなった。内的独白と実際の発話はかなり違う
- コンピュータ科学者たちが認知科学者のコスプレをしているが、心理学の授業は一度も受けたことがないように見える
- あの4つは、1つに統合された認知アルゴリズムのように聞こえる。問題をサブゴールに分けてオントロジーを作り、作業をきちんと検証し、ミスをデバッグするために逆向きに考えてやり直し、結果から逆に推論するというやり方だ
  結局、難しい問題を解くための1つのアルゴリズムであり、練習できるスキルで、身につけるほど自分でさらに積み上がっていく
ここまで来ると、タイトルだけでは自己啓発心理学の流行なのかLLM論文なのか区別がつかない
- そのうち、The Subtle Art of Not Giving a Fuckの第一原理だけで推論するLLMも出てきそうだ
AIの訓練手法に関する知識は、人をよりよく考えられるように訓練する方法を見つけるのにどれほど役立ったのだろうか？
- 肥満のような極端な状況を避けるにはどう食べるべきかについての知識はすでにあったが、その効果を見れば分かる
  思考をより良くする錠剤が出てくるまでは、動機のある人だけが実践するだろうし、この場合、動機のある人はすでにできていた可能性が高い
- 教育のバックグラウンドがあるので、むしろ逆の問いをよく抱く。なぜAIの手法は、人間の学習について私たちが知っていることをほとんど活用して、より良いAIを訓練しようとしないのだろう？
- 今のところ、特に興味深いものは見つかっていないようだ
「正しい推論パターンを含む誤った解答で準備されたモデルが、正解で訓練されたモデルと同程度の性能を出す」という部分は、再現研究をしてみる価値が最も大きい箇所の一つだ
Redditで、人々が内的独白の経験について語っている投稿を時々見るが、自分にはそういう独白がない。少なくとも、自分を「私」と呼ぶ心の部分がアクセスできる形ではない
その独白が一種の「思考の連鎖」のようなものなのか、よく気になっていた
そうした「アイデアのフィード」にアクセスできないせいで、自分の計画立案や実行機能が他の人より効果的でないのかもしれないとも感じる
それでも、こういうタスクでは小さな「思考の連鎖」メモ帳を使うとずっと効果的だ
一方で、一日中耳元で誰かが話しているような状態ならついてきそうな反芻、自己疑念、不安行動は、自分は少ない気もするが、これは本題から外れそうだ
- 心の中で、言語的な形で思考がまったく形成されないの？文章を読んで、それを心の中で文として認識することはできるのか、それともそれも不可能なのか気になる
  疑っているわけではなく、本当に興味がある。内的独白がとても強い人間としては、それがない状態を想像しにくい
- 純粋に気になって聞くのだが、では多段階推論はどう機能するの？
  例えば16 * 3 + 5のように、各ステップは簡単だが複数のステップが必要な数学の問題があるとき、16 * 3 = 48という値は脳のどんな「レジスタ」、つまり短期記憶にどう入って、そこに5を足して53に到達するのか？
  16 * 3 + 5は簡単すぎてただ「見える」かもしれないので、もっと複雑な問題を選んでも質問は同じだ
  もっと曖昧なテーマについて考えるときにも、同じメタプロセスが働くのではないか？
- 私には内的独白がある。同時に絵でも考えられるし、そのどちらでもない純粋な思考でも考えられる
  たいていの人は私に近いと思う。3つの思考モードがあり、好む主モードがあるのだろう
  私は特にどれか一つを好むわけではなく、読む・書く・他の作業に応じて3つのモードを行き来する
  より大きな第二の集団は、主な思考モードが一つだけで、それが内的独白だ
  彼らは内なる声でしか考えられず、その声があまりに強いため、内的な声そのものを思考の定義だと見なす人もよく見た。彼らは思考とはすなわち思考の連鎖だと仮定している
  もっと珍しい例としては、数字に色を付ける人や、絵で考えるという感覚自体がない人もいる
  内的独白をまったく持てないという人は初めて見た
- 心の中で何も思い描けないアファンタジアという興味深い現象がある。そういう人たちも普通に生活していて、自分が違うことに一生気づかない場合もある
  これは、話し声を心の中に思い描く能力についての似た概念のように感じる
  https://en.m.wikipedia.org/wiki/Aphantasia
  ただ、自分の思考の大半は、ステップを自分に「言葉で説明していく」線形の独白という形では行われていない
- 言語で考えられないという意味なのか？正直、少し怖く聞こえる
その通りだが、自己改善AIにはやや不安になる考え方が伴う
AIが内部的には意味不明なつぶやきのような言語に切り替わるが、AI同士では明らかに意味を伝え合い、その言語で考えたうえで正解を出す
さらに悪いのは、複数のエージェントを使ってAI LLM同士に会話させると、すべてのAIエージェントがこの内部言語に切り替わり、人間には何が起きているのかまったく理解できないのに、それでも進展を出す点だ。これはかなりまずそうに見える
例：「strawberryにrはいくつあるか？」と尋ねると、単語を文字ごとに見ながら a;dklsjaw; a;ewjraqwpeouypaads;lq qepwiouryaqeopw qewrpoiuyoiauysdqw145124rfa.nkjlwh ;45a8345a894ya4a q4p58q45jaq;lkjas;dlfkja;j のように処理したあと、「strawberryにはrが3つある」と答えるようなもの
- これを「Neuralese」と呼ぶのを聞いたことがある。モデル内部の対話において最も密度の高い言語になり得るというのはもっともらしい。同じ重みを共有しているなら、LLM間の会話でも同様だろう
  アラインメント戦略がDeliberative Alignmentに依存する以上、こうした現象にはペナルティを与えるはずだが、ある時点ではNeuraleseのほうが概念的により高密度なため、実際に性能上のコストが生じると思う
- モデルが自ら新しい言語を発明することはないだろう。定義上、見たことのない言語では「考える」ことすらできない
  自分たちが使っている言語が最適ではないかもしれない、という発想もできない
  そして、よりよい思考方法があったとしても、結局は英語で説明できるはずだ
  よりありそうな流れは、私たちがLLMに推論方法を教える段階から、LLMが十分なデータを実際に吸収して処理し、より効果的な推論方法を学んだうえで、それを私たちに「教える」段階へと徐々に移っていくことだ
  それでも、それはLLMが訓練されアラインされた方法を反映しているにすぎない
「専門家である人間の問題解決者と成功した言語モデルのどちらも使う4つの中核的な認知行動――検証、戻り、サブゴール設定、逆方向推論」とあるが、専門家である人間の問題解決者がそうした方法を使うというのは、何を根拠にしているのだろう？
- AIへの不信をいったん脇に置くと、こういう疑似科学も全部もっともらしく見えてくる
こうした行動を誘導する、よりよいシステムプロンプトを与えれば、性能もかなり向上するということだろうか？
- 私の経験では、モデルはそうしたプロンプトにうまく従えない
  Claude 3.5のような賢い「非推論」モデルなら可能だったが、考えるときにテキストを生成しすぎてコンテキストウィンドウを使い切ってしまった
要旨で ``think'' と書いているが、ここでは通常の二重引用符とは違う文字を使っている
- それは開始引用符と終了引用符を表すLaTeX記法だ
  ただし、レンダリングされた論文では、なぜかそのようには表示されていない

自己改善する推論者を可能にする認知行動

同じ強化学習でも分かれる自己改善能力

自己改善を助ける4つの推論行動

QwenとLlamaの初期行動の違い

行動プライミング: 正答より推論パターン

継続事前学習で行動分布を変える

初期の推論習慣が改善可能性を左右する

関連記事

1件のコメント

Hacker Newsのコメント