Meta Chain-of-Thoughtで思考のしかたを学習

(arxiv.org)

2 ポイント投稿者 GN⁺ 2025-01-12 | 1件のコメント | WhatsAppで共有

Meta Chain-of-Thought（Meta-CoT）は、最終的な解法ステップだけを使うCoTを超えて、答えに到達する前の 潜在的な思考過程 までモデル化しようとするフレームワーク
高難度の数学問題では、教科書的な最終解法が実際の思考における 探索・検証・実験 を省略しており、モデルが解法生成の過程を学習しにくい
GPT-4oやClaudeも一部の代数式評価で失敗することがあるが、“step by step” CoTは中間計算を増やして正答の可能性を高め、推論計算量 の違いを浮き彫りにする
OpenAI o1系はHARPのような高難度数学ベンチマークでより長い出力を生成し、性能差を広げており、推論時探索 に通じる振る舞いを示す
Meta-CoTの実装経路として、プロセス監督、合成データ、MCTS・A*探索、線形化した探索トレースに基づくinstruction tuning、強化学習による後学習を束ねた 訓練パイプライン が提案されている

Meta-CoTが狙う問題

現在の大規模言語モデルの基盤は 次トークン予測 であり、テキストや連続モダリティを離散的なトークン列に分けたうえで、次のトークンの尤度を最大化するよう学習される
このアプローチには「compression is intelligence」という見方がある
- モデルが次のトークンを予測するには、データ分布を近似し、活性値の中で暗黙的な推論を行う必要がある
中核となる問いは、データストリームの複雑さ と、モデルがデータ生成アルゴリズムを学習できる能力との関係である
数学的推論は、この問いを評価するのに適した領域として用いられる
- 「1+2」のような問題には、ほとんどの場合すぐに「3」と答える
- より複雑な代数式評価問題は実際には1に単純化されるが、GPT-4oやClaudeのような強力なLLMでも一度も正しく答えられないことがある
「think step by step」という指示とCoTは、中間ステップを生成させることで性能を大きく引き上げる
- 例の代数式では、因数分解、約分、通分を経て値が1になることを示す

従来のCoTの限界

CoT拡張は理論上、正答トークン予測に任意に多くの計算を投入できるようにする
既存の理論文献では、CoTがLLMに新たなレベルの表現複雑性を与え、無限メモリのような仮定の下ではチューリング完全性に至る可能性すらあると見なされている
実際のLLMは依然として 限定的な複雑さ の問題しか安定して解けない
複雑な推論の実際のデータ生成過程は、一般的なCoTデータには十分に含まれていない
- 単純な問題の教科書的解法過程は、実際の解法生成過程と比較的よく一致する
- 複雑な問題の最終解法ステップは、その解法に到達する前の 非線形な探索過程 を省略している

Meta Chain-of-Thoughtの定義

Meta-CoTは、質問から最終解法ステップと答えへ直接進む代わりに、その前に存在する潜在思考 z1 ... zK をモデル化する
古典的なCoTでは、答え a は解法ステップ s1 ... sn に条件付けられていると見なせる
Meta-CoTでは、解法ステップと答え (a, s1 ... sn) が潜在思考過程 z1 ... zK に条件付けられていると考える
既存のCoTの論理を一段一般化した構造であり、最終解法の外側にある思考過程を学習対象に取り込む
複雑な問題では、最終解法が短くても、その解法を発見する過程は長く非線形でありうる

IMO 2011「windmill」問題の事例

International Mathematics Olympiad 2011の有名な windmill 問題は、複雑な推論の事例として使われる
この問題の公開解答は数文で表現でき、特別な事前知識も要求しない
実際の難しさは、解法が非常に非線形な構造を持つ点にある
- 多くの参加者はconvex hullの構成やHamiltonian graph theoryの道具を試したが、解法にはつながらなかった
- 問題を解いた参加者たちは、幾何的な探索と帰納的推論を多く含む実験的アプローチをたどった
最終解法の冒頭部分は、全体のアプローチをすでに知っていて初めて有用性が見える
したがって、実際の解法生成過程は左から右へ進む自己回帰方式とは相性がよくない

HARPの結果とo1系のトークン使用

OpenAI o1モデル系は、推論時に自己回帰方式で Meta-CoT推論 を行っていると論じられている
HARP数学ベンチマークでは、o1系は従来の標準的な推論モデルより全体的に高い性能を示す
難易度が高い問題ほど、o1と他モデルの間の性能差は大きくなる
- ただし、LLaMa 3.1モデルでは興味深い例外が観察されている
トークン生成量でも、o1系は従来モデルと異なる振る舞いを見せる
- Level 1の問題では、人間が書いた解答と同程度のトークン数を生成する
- より高難度では、問題あたりはるかに多くのトークンを生成し、同時に従来モデルとの差も広がる
高難度問題の公開解答は実際の生成過程を代表しておらず、o1系のより長いMeta-CoTがその過程をよりよく近似できる、という仮説につながる

探索と検証の役割

複雑で目標指向の問題には、生成と検証のあいだに意味のある 難易度ギャップ が存在しうる
このギャップは理論計算機科学の根本的な公開問題と結びつくが、それを証明することは研究の範囲外である
テキストコーパスにある難しい問題の解答は、長い探索過程の結果と見なせる
しかし、その 探索過程そのもの は通常データに表現されていない
Meta-CoTデータが存在しない、または限定的にしか存在しない場合、モデルは高難度推論の実際の生成過程を直接学習しにくい

LLaMa 3.1 8B実験

LLaMa 3.1 8B base modelに対し、Numina MATHデータセットで大規模なsupervised fine-tuningを実施した
各中間チェックポイントは、Hendrycks MATHの500問評価データセットで評価された
oracle verifierを用いるpass@k評価では、kが増えるほど性能が大きく向上する現象が観察された
Figure 2は、フィルタリング済みデータセットが元データより良いスケーリングを示し、なおplateauに達していないことを示している
pass@2からpass@64までkを増やすと、小規模モデルでも少なくとも1つの正解解法を得られる確率が大きく上昇する

訓練経路と未解決の問い

Meta-CoTを作る方法として、プロセス監督 と探索ベースの合成データ生成が扱われる
合成Meta-CoT生成には、Monte Carlo Tree Search（MCTS）やA*探索のような探索アルゴリズムが含まれる
単一のend-to-endシステムを目指すパイプラインは、線形化した探索トレースを使ったinstruction tuningと、強化学習による後学習を組み合わせる
「Big MATH」プロジェクトは、100万件以上の高品質で検証可能な数学問題を集め、この研究を支援しようとする試みである
未解決の研究課題には、推論と探索のスケーリング則、verifierの役割、meta-RLによる新しい推論アルゴリズム発見の可能性が含まれる

1件のコメント

GN⁺ 2025-01-12

Hacker News のコメント

CoT 批判には説得力がある。特に、アルゴリズム的な模倣と本物の認知的探索との断絶を指摘している部分が核心だと思う
著者らは国際数学オリンピックの「風車問題」のような高度な数学の例を使い、総当たり的な逐次思考では解きにくい問題を示している。静的なデータセットと硬直した生成プロセスに依存する枠組みの限界が表れている。CoT が失敗する理由は、解答を生成できないからではなく、人間の創造性のように解答を思いつく方法を持っていないからだ
「超知能とは新しいものを発見することではなく、発見する新しい方法を発見することだ」という一文が印象的
- そうなると後には「発見する新しい方法を発見する新しい方法」が必要な問題も出てきて、ずっとそのように続いていくかもしれない
- メタ推論で学習させればよい。人々が発見する方法を発見する過程を学習させればいいので、大きな問題ではなく、データセットを作って学習させればよいという感じ
- 最後に引用された文がよい。元の出典を覚えているのか気になる
- 風車問題については https://www.3blue1brown.com/lessons/windmills がある
論文の大きなアイデアは、CoT が一部の複雑な問題では制約を受けるということだ。解法を見つける「教科書的」な方法がない問題があり、こうした問題には固有の方法論が必要になる
「本質的に、解答の生成を始めるには、すでに全体のアプローチを知っていなければならない。解答の土台となる生成プロセスは、左から右へ進む自己回帰的なプロセスではない」という部分が核心だ
数学的には、推論を潜在変数過程として見る解釈で定式化できる。古典的な CoT は最終回答の確率を潜在的な推論連鎖に対する周辺化として見る一方、複雑な問題における実際の解答生成プロセスは、解答の結合確率分布が潜在的な生成プロセスに条件付けられていると見るべきだ。そのため q → z1 → … → z を Meta-CoT と呼んでいる
これはかなり重要な出発点に見える。たとえば o1-pro に、1550nm のレーザーダイオードを 1GHz で動作させながら、高価なコリメータなしに汎用素材や新しい製造アプローチ、第一原理物理で幾何損失を下げる方法を尋ねると、o1-pro がすごいという幻想は崩れる。「新しい」工学にはまだ届きにくく、そのような工学を行う方法についての教科書がないため、こうした問題は左から右へ自己回帰的には解けない
- 目標水準がどれほど移動したのかに驚く
  いまや AI モデルが「すごいもの」であるためには、任意の難しい分野で人間もまだ解けていない問題を与えると、よい解法を吐き出さなければならないように見える。そんな AI は当然すごく、世界を変えるレベルだろうが、それ未満だともう「すごくない」という基準はかなり驚きだ
- 人間でもこの問題を物理的現実に問い合わせることなく、つまり実験なしにまともな解法を出せるのか疑問だ
  現実の一部は計算不可能なので、結局は宇宙自身にシミュレーションさせて初めて到達できる
- 「解法を見つける教科書的な方法がない問題」という言い方は、LLM と相互作用してきた自分の経験とは違う
  ほとんどの人が理解できないような形で質問しても、回答を見ると質問自体は正しく解釈していることが分かった。答えが合っているかは別だが、教科書的な例ではない解釈もある程度は現れていた
- 「新しい工学を行う方法についての教科書はない」と言うが、科学的方法についての本はあるのではないか
  他のコメントが言うように、実験と観察が必要なことを箱の中の超知能に見つけ出せと期待するのは、物理的にほぼ不可能だ。純粋数学のように紙に書いて公理だけを考えればよい分野に限られるだろうが、そうした分野こそ進歩が最も難しい部類に入る。人類も数千年かけて、複数の博学者がごく小さな部分ずつ貢献しながら、ここまで来た
「言語モデルは連続する単語間の相関を単に当てているのではなく、テキストの暗黙の意味を学ぶ」という点で、研究コミュニティは合意しているのだろうか？このテーマを扱った論文があるのか気になる
- 研究コミュニティがこれに合意しているわけではまったくなく、いくつかの陣営がある。自然言語処理の分野で大きく見ると、2つの見方がある
  2020年のBenderとKollerの論文[1]は、意味は形式だけからは学べず、LLMは形式から学習していると主張している。論文の「The Octopus Test」という思考実験では、2人の人間の会話を傍受できるタコが登場するが、「学習データとして形式だけを持っている状態では意味を学べていない」と説明している
  一方でYoav Goldbergの文章[2]は、グラウンディングとLLMが何を学ぶのかを、より非公式に扱っている。おおむね、指示チューニングや事後学習によって「summarize」のような用語を意味のある形で接地できる、という主張だ
  [1] https://aclanthology.org/2020.acl-main.463/
  [2] https://gist.github.com/yoavg/59d174608e92e845c8994ac2e234c8...
- いつも感じるのは、「テキストの暗黙の意味」と「連続する単語間の相関」の間には、実際には違いがないのかもしれないということ
  LLMが人間と効果的にコミュニケーションできるという事実は、ニューラルネットワークの知能についての発見というより、人間のコミュニケーション意味論の規則性についての発見に近い
- 合意された内容でないことは確か。コンピュータサイエンスでは、意味の理論はそもそも学問領域の一部ではなく、関連する先行研究の背景を持つ人もほとんどいないため、このような大胆な主張があちこちで出てくる
  自然言語意味論をどのように与えるにせよ、機械学習モデルがその意味論を使っているとは考えにくい
  せいぜい言えるのは、Transformer式の教師あり学習、つまり「次単語予測」という目的の下で、単語群の相関構造が自然言語意味論の極めて粗い近似分布を作る、という程度だ。これ自体は論争になったことはなく、争点はそれがどのような種類の極端な近似なのかにある
  たとえば「私の手にペンがある」の真理条件は、実際に私の手にペンがあることだ。その文脈でこの発話を意味するには、こうした真理条件へ直接アクセスすることが非常にもっともらしく必要になる。機械はそのような発話の真理条件にアクセスできないので、その発話を意味することはできない
  機械が適切な状況で「私の手にペンがある」と言うなら、「自然言語意味論の極端な近似」は、その状況と「適切さ」が何であるかに関するものだ
  LLMやコンピュータサイエンス的な思考を批判する立場では、そのような応答が適切に見える「状況」、つまりプロンプト条件の範囲は非常に狭いと見る。ユーザーにとって応答が適切に見えることは、ツールがうまく機能しているという工学的条件であって、モデルが自然言語意味論を理解しているという意味ではない
  したがってLLMは、限定された状況で意味論を理解する行為者同士の会話を近似し、適切な言語使用をモデル化していると言える。「平均的な回答適切性」モデルとは呼べるかもしれないが、「私の手にペンがある」を実際に意味することはできない
「圧縮は知能である」という原則やSolomonoff帰納を根拠に挙げる表現には注意が必要だ
上で引用された「A Formal Theory of Inductive Inference」2編全体で、「intelligence」という単語は0回、「Compression」も0回、「reasoning」は「using similar reasoning」という句で1回出てくるだけだ
当然ながらSolomonoffの関心は帰納推論だった。彼が「圧縮は知能である」と言ったことがあるのかは分からないし、このアイデアやスローガンはずっと後に発展したもののように見える。元の出典もはっきりしない
Solomonoff帰納が記号列における次の記号を予測する問題と深く関係しているのは確かだが、必ずしも言語トークンである必要はない。LLMが「初期段階」だというようなよくある表現は間違っている。言語モデリングはコンピュータサイエンスの基準ではほとんど古代の技術であり、技術的な成熟段階にはすでにかなり前から入っている
[1] https://raysolomonoff.com/publications/1964pt1.pdf
[2] https://raysolomonoff.com/publications/1964pt2.pdf
- 知能が圧縮の一形態だというのは十分に筋が通る。帰納モデルは小さいが、潜在的には任意の量の情報を生成できる
思慮深い取り組みだ。数か月前から関連するアイデアを考え、作業してきたが、まだ同程度の計算資源は使えておらず、方向性も多少違っていたかもしれない
この研究は、デコーダTransformer構造をよりよく活用するためのベースラインを作るうえで確実に役立つ
ここでのMetaは会社のMetaを指しているのか、それとも「メタ」という言葉を使っているのか？それとも両方か？
- 言葉として使われている
  https://chatgpt.com/share/67813a3f-c7e8-8001-ab0c-7f024bc41a...
研究者が自分たちで思いついたものを研究する場合と、オンラインの独立開発者が取り組んでいた作業が注目され、研究されて論文になる場合が、それぞれどのくらいあるのかを知る方法があるのか気になる
論文で単純な代入型の代数方程式とその段階的な解法を例に挙げているのは、LLMが以前に見た解法レシピしか再現できないという認識を強める
実際、私たちが学校で数学を学ぶ方法と大きくは違わない。教師が出発点を示し、段階を追って最後まで進む。これを「Meta Chain-of-Thought」と呼ぶのは、基礎教育課程を大げさに言っているように感じる
次には、基本的な食器を持ち上げる行為を「階層的物理運動論」のようなこじつけた名前で呼ぶようになるかもしれない。学校ではこうした「Meta Chain-of-Thought」を単に「解く過程を示しなさい」と呼んでいた。本当に説明が必要な「現象」なのだろうか？論理的帰納、つまり推論段階を私たちがどのように達成しているのかについては、まだ学べることがあるだろうが、鍋の形を正確に描写するには、まだスープの中に深く入り込みすぎている
- 「以前に見たレシピしか再現できない」というのがLLMの話なのか、本人の話なのか分からない

Meta Chain-of-Thoughtで思考のしかたを学習

Meta-CoTが狙う問題

従来のCoTの限界

Meta Chain-of-Thoughtの定義

IMO 2011「windmill」問題の事例

HARPの結果とo1系のトークン使用

探索と検証の役割

LLaMa 3.1 8B実験

訓練経路と未解決の問い

関連記事

1件のコメント

Hacker News のコメント