Meta AIのCoconut – 連続的な思考連鎖でLLMの推論を向上させる

(aipapersacademy.com)

6 ポイント投稿者 GN⁺ 2025-01-01 | 1件のコメント | WhatsAppで共有

大規模言語モデル（LLM）は膨大な量の人間の言語で事前学習され、強力な推論能力を示している
「Chain-of-Thought（CoT）」方式は、モデルが段階的に思考過程を生成することで答えの導出を助ける
しかし、LLMの推論は単語として生成されなければならず、これはモデルに根本的な制約を与える
人間は常に思考を言語で表現するわけではない。AIもそうする必要があるだろうか？
Metaの研究論文「Training Large Language Models to Reason in a Continuous Latent Space」は、新しい方式である**COCONUT（Chain of Continuous Thought）**を提案し、こうした限界を解決しようとしている

Chain-of-Thought（CoT）方式

CoTは質問を入力として受け取り、段階的な推論を通じて最終的な回答を生成する方式
モデルは入力トークンを処理し、最初の応答トークン（推論過程の開始）を生成する
質問とそれ以前の推論トークンを繰り返しモデルへ再入力して推論過程全体を完成させ、最後に回答を生成する

Chain of Continuous Thought（COCONUT）方式

COCONUTは言語モードと潜在思考（latent thought）モードを交互に使用する
- 言語モード: 標準的な言語モデルのように動作し、次のトークンを生成する
- 潜在思考モード: 最後の隠れ状態を使って次のステップを計算する
潜在思考モードでは、最後の隠れ状態を次の入力として使用することで、より効率的な推論が可能
<bot> トークンで潜在思考モードを開始し、 <eot> トークンで終了した後に言語モードへ切り替える

学習手順

既存のCoTデータ（質問、推論ステップ、最終回答）に基づいてモデルを学習する
段階的に学習する:
- 初期段階では、モデルが言語ベースの推論ステップと回答を生成するように学習させる
- その後の段階では推論ステップを削除し、代わりに潜在思考トークンを追加して学習させる
各段階での損失は、残っている言語ベースの推論ステップと回答に対して計算される
潜在思考は完全に微分可能であり、バックプロパゲーション（逆伝播）が可能

思考生成から単語トークン生成への切り替え

モデルが潜在思考モードから言語モードへ切り替える方法には、2つの戦略がある
1つ目の戦略は「二値分類器を使ってモデルに決定させる」方法で、2つ目の戦略は「固定数の潜在思考トークンを使う」方法
どちらの戦略も同様の結果を示したため、より単純な固定数方式が採用された

実験結果

Coconut手法は、No-CoTと比べてすべてのデータセットで優れた性能を示した
CoTと比較すると、数学ではCoTのほうが優れるが、計画能力が求められるProsQAではCoconutのほうが優れている
i-CoTと比較した場合、数学ではCoconutのほうが高い精度を示した
Coconutの性能:
- GSM8K（数学）: CoTより低い性能
- ProsQA（計画重視）: CoTより高い性能
- No-CoT（推論なしで直接回答を生成）: すべてのデータセットで優れた性能
- 効率性の面ではCoTより少ないトークン生成で済む
i-CoTとの比較:
- 数学でより高い精度
- 計画および論理推論では同等の性能
カリキュラム学習の効果:
- 「カリキュラムなし（w/o curriculum）」モデルは性能が大きく低下した

BFSに類似した推論能力

ProsQAデータセットでは、計画中心の問題解決においてCOCONUTが優れた成果を示した
グラフ探索の事例:
- CoT: 存在しない関係を「hallucinate」して誤答を導いた
- Coconut: 複数の潜在思考トークンを活用して正確な経路探索が可能
Coconutは複数の可能な経路を探索できるため、計画集約型のタスクでより高い性能を示す

結論および今後の研究方向

結論:
- COCONUT方式はLLMの推論能力を大きく向上させる
- 潜在空間での推論は、BFSに似たパターンを通じて計画中心タスクで優れた性能を提供する
今後の研究方向:
- 連続的思考を事前学習段階から統合する
- 効率性を高めて複数の逐次推論を処理する
- CoTと潜在思考を組み合わせる可能性を探る

1件のコメント

GN⁺ 2025-01-01

Hacker Newsの意見

BFSへの強調は、私が試してきたこととは逆だ。人間は本能と直感に従って、作業を短いステップと、次のステップを要約・保存する長いステップに分ける。失敗した場合は、失敗のツリーを要約して将来の選択肢から除外する。
- 本能の効果は、距離が遠くなるほど急激に低下する。BFSを使うと本能の価値を下げ、計算を優先することになる。問題の種類によってアプローチは変わる。
- 一緒にプロトタイプを作りたいなら連絡してほしい。
人間の言語を介さない表現を作ることが次の段階だ。LLMが人間のテキスト入力なしに埋め込みだけでやり取りできるなら、AIの新しい章が開かれるだろう。
Metaは事前学習済みの言語モデルから始め、段階的推論の例でファインチューニングする。新しいトークンを導入し、モデルが潜在空間の思考モードに切り替わるようにする。
- 最終隠れ層を繰り返し入力層にコピーして、さらなる洞察を得る。
- 学習では、言語による推論ステップを潜在空間の自己回帰ステップへと段階的に置き換える。モデルは自ら潜在空間思考モードを有効化し、終了することを学習する。
内部思考のために埋め込み/逆埋め込みのステップを省くことが大きな改善点なのか、それともCoTと「潜在思考」とテキスト出力の切り替えを教える学習方法が主要因なのか気になる。
- 固定数の「潜在思考」が二値分類器と同等の性能を示すのは興味深い。
AI/LLMにとっての「あれ」な瞬間かもしれない。人間は「トークン」で考えているわけではない。潜在空間にとどまれば、モデルは言語より高い解像度でアイデアを表現できる。
- 潜在空間は実行コストが低い。言語のエンコード/デコード段階なしに思考できる。さまざまなデータを入力して推論することも可能だ。
競合は急速に追いついている。複数のSkyNetが競い合うことになりそうだ。
FacebookのAI生成キャラクターのユーザーベースが、より良い相互作用を実現できるのか気になる。
このサイトは論文を単純化していると主張しているが、広告が多く、公式のMeta FAIRページでも「Coconut」が見つからない。このサイトがリンク先として最適なのか疑問だ。
20日前の重複投稿だ。

Meta AIのCoconut – 連続的な思考連鎖でLLMの推論を向上させる

Chain-of-Thought（CoT）方式

Chain of Continuous Thought（COCONUT）方式

学習手順

思考生成から単語トークン生成への切り替え

実験結果

BFSに類似した推論能力

結論および今後の研究方向

関連記事

1件のコメント

Hacker Newsの意見