思考が人間の成績を下げる課題におけるChain-of-thoughtの負の影響

(arxiv.org)

1 ポイント投稿者 GN⁺ 2024-11-01 | まだコメントはありません。 | WhatsAppで共有

Chain-of-thought（CoT）はLLM・LMMの基本的な性能向上戦略のように使われているが、人間が言語的熟考のために失敗する心理学課題6種をモデル評価に移し替えると、一部の課題で性能が大きく低下した
低下は暗黙的統計学習、言語化しにくい顔認識、例外が混ざる規則学習で顕著で、OpenAI o1-previewは人工文法学習でGPT-4o zero-shotより絶対精度が最大36.3%低かった
顔認識ではテストした6つのLMMすべてでCoT条件の性能が低下し、例外のある車両分類ではGPT-4oが正解ラベルを学ぶまでの反復回数がdirect prompting比で331%増加した
論理的不一致判断、空間直観、多次元選好集約ではCoTが一貫して有害ではなく、論理の事前知識、長いコンテキスト、人間とは異なる感覚・運動経験が結果の差を生んだ
人間の考えすぎの事例はCoT失敗課題をランダムより効率的に見つける手がかりになったが、CoTを使うかどうかはモデル能力と課題構造をあわせて見て決める必要がある

CoTがデフォルトになるときに生じるリスク

Chain-of-thought（CoT）は、モデルに「段階的に考えよ」と指示したり、回答に中間推論の構造を含めさせたりするプロンプティング手法である
大規模なメタ研究では、CoTは特に数学・記号推論課題で性能を高めたが、テキスト分類のような領域では性能低下も観察されている
OpenAI o-seriesモデル、ClaudeのWebインターフェースやthinkingモデルのように、最新のLLM・LMMではtest-time computeが基本構成要素になりつつある
まだ不足しているのは、どのような状況でCoTが系統的に性能を下げるのかという精密なパターンである
この研究は、人間にとって「考えること」がむしろ有害になる心理学課題を手がかりに、モデルでもCoTが有害になる課題を探した

人間心理学から持ち込んだ6つの評価タイプ

人間の言語的思考が成績を下げる代表的な課題を6つの原型として整理し、それぞれをLLM・LMM評価へ拡張した
CoTによる性能低下が顕著だった3つのタイプ:
- 暗黙的統計学習: 人工文法で生成された文字列が同じパターンに属するかを分類
- 言語で表現しにくい刺激: 顔を見て同一人物を候補画像から探す顔認識
- 例外のある規則学習: ほぼ正しい一般規則と例外が混ざったラベルを反復フィードバックで学習
CoTによる性能低下が一貫しなかった3つのタイプ:
- 論理的に不一致な文を判定する自然言語推論課題
- カップを傾けたときの水位を推定する空間直観課題
- 多くの特徴を持つアパート候補から最善の選択肢を選ぶ選好集約課題
6つの拡張データセットはhuman overthinking benchmarkとして公開されている

CoTが大きく揺らいだ3つの課題

暗黙的統計学習: 人工文法分類
- 人工的な「単語」はfinite-state grammar（FSG）で生成され、モデルは15個の学習例を見た後、新しい文字列が同じ文法から出たものかを分類する
- 合計100個のFSGから4,400件の分類問題が構成され、各FSGごとに44個の単語のうち22個は文法に属し、22個は既存単語の1文字を変えて生成された
- テストモデルはOpenAI o1-preview、GPT-4o、Claude 3.5 Sonnet、Claude 3 Opus、Gemini 1.5 Pro、Llama 3・3.1 70B/8B Instructだった
- CoTは大半のモデルで精度を下げる
  - o1-previewは440問の部分集合でGPT-4o zero-shot比で絶対精度が36.3%低かった
  - GPT-4oはzero-shot 87.50%からCoT 64.40%へ23.10ポイント低下
  - Claude 3 Opusは70.70%から62.70%へ8.00ポイント低下
  - Gemini 1.5 Proは68.00%から61.95%へ6.05ポイント低下
  - Llama 3.1 70B Instructは65.90%から57.10%へ8.80ポイント低下
  - tree-of-thoughtとin-context reasoning steeringは性能を一部高めたが、GPT-4o zero-shot性能との差を有意に埋めるには至らなかった
顔認識: 言語化しにくい視覚刺激
- 古典的なverbal overshadowing課題をLMM向けに変換し、最初の顔画像と同じ人物を候補画像5枚の中から選ばせた
- データセットは500問と2,500人分のユニークな顔で構成され、各問題の候補顔は人種、性別、年齢層、目の色、髪の長さ、髪色、髪型が同じ説明を共有していた
- 画像はstable-image-ultraで生成され、同一人物画像1組と、同じ説明を持つ別人画像4枚が候補として使われた
- テストした6つのLMMはすべてCoTで性能が低下した
- GPT-4o: 64.00% → 51.20%
- Claude 3 Opus: 44.00% → 29.60%
- Claude 3.5 Sonnet: 97.80% → 94.80%
- Gemini 1.5 Pro: 66.00% → 54.60%
- InternVL2 26B: 9.20% → 6.00%
- InternVL2 Llama3 76B: 15.77% → 13.77%
- 難易度を下げた設定や二値分類設定でも同様の低下が見られ、CoTが単に画像順を妨げたのではなく、推論過程そのものに影響したとみられる
例外のある規則学習: 車両ラベル分類
- 車両分類課題では、モデルが車両リストに二値ラベルを付け、各予測の後にフィードバックを受けながら、全ラベルを一度に正しく当てるまで反復する
- 各車両には、ラベルと80%相関する特徴1つ、ラベルと無関係な特徴3つ、車両を個別識別する特徴1つが含まれる
- モデルはほぼ正しい一般規則を学ぶと例外で失敗し、個別識別特徴とラベルの対応を覚えると全体を正解できる
- 2,400台の車両を10台ずつ240リストに分け、最大15反復まで評価した
- CoTは評価したすべてのモデルでラベル学習の反復回数を大きく増やした
- GPT-4o: direct 2.9回 → CoT 12.5回、331%増加
- Claude 3.5 Sonnet: 2.3回 → 6.4回、178%増加
- Claude 3 Opus: 2.4回 → 5.5回、129%増加
- GPT-4oのdirect promptingは2〜3回目の反復で完全分類に到達したが、CoTは平均すると15回後でも10件中8件正解の水準にとどまった
- 強いsteering promptでナンバープレートをマッチングせよと明示するとCoTもzero-shot水準に達したが、基本的なCoTは最適な推論空間を選べなかった

人間とモデルの差が現れた3つの課題

論理的不一致判断
- 人間実験では、不一致な文のペアが共存しうる理由を先に説明させると、実際の不一致判定性能が低下した
- モデル評価はSNLI、MNLI、合成データセットのentailmentペアを用いて3,216問に拡張された
- GPT-4oとLlama 3.1 70B InstructはCoTで性能が大きく改善した
- GPT-4oはMNLI 53.2% → 93.9%、SNLI 51.4% → 94.3%
- Llama 3.1 70B InstructはMNLI 55.6% → 81.6%、SNLI 50.4% → 82.3%
- もともと人間参加者は形式論理の専門性を持たないよう募集されていたが、LLMは学習コーパスで論理パズルや論理操作の知識に触れているため、CoTが追加トークンと組み合わさって性能を高めうる
- Gemini 1.5 ProやClaude 3 Opusのようにzero-shot性能が高かったモデルでは、一部でCoTによる性能低下も見られた
空間直観
- カップ傾け課題は、2つのカップを同じ角度で傾けたときに水が両側の縁に達するよう、空のカップの水位を選ぶ問題である
- 元の人間課題は直接水位を描く方式だったが、LMM評価ではA〜Dのラベル付き客観式画像問題に変換された
- 合計100問がコードで描画した画像とともに生成され、GPT-4o、Claude 3.5 Sonnet、Claude 3 Opus、Gemini 1.5 Pro、InternVL2 Llama3 76Bが評価された
- zero-shotとCoTの間に有意な差は観察されなかった
- GPT-4o: 38% → 40%
- Claude 3.5 Sonnet: 42% → 38%
- Claude 3 Opus: 42% → 38%
- Gemini 1.5 Pro: 35% → 36%
- InternVL2 Llama3 76B: 39% → 31%
- 人間の非言語条件の優位は視覚・運動シミュレーションに由来するが、LMMが人間と同じ運動経験ベースの表象を持つとみなすのは難しい設定である
多次元選好集約
- アパート選択課題は、4つのアパートの多数の特徴を見て最善のアパートを選ぶ問題である
- 人間実験では、短時間に大量の情報を受け取った後に熟考する条件より、distractor task条件のほうが良い選択になった
- モデル評価では、80個のアパート特徴と特徴ごとの肯定・否定・中立文を作成し、GPT-4oが各文の影響度を-5〜5で評価したうえで300個の選択課題を構成した
- GPT-4o、Claude 3.5 Sonnet、Claude 3 OpusではCoTが概ね性能を高め、Llama 3.1 70B InstructはCoT条件で回答を適切に返せないことが多く性能が低かった
- モデルは人間の作業記憶と異なり、多くの文をコンテキスト内で参照できるため、CoTが特徴重要度を合算する形で機能しうる

ヒューリスティックの検証と限界

人間の考えすぎの事例を基準に選んだ課題が実際にCoT失敗をよりよく見つけるかを確認するため、Sprague et al. 2025のzero-shot対CoT比較378件をブートストラップの基準として用いた
6課題のモデル別数値差50件を取り出して比較した結果、100,000回の再標本化の中で、この研究結果より平均性能低下が大きい標本は一つもなかった
性能低下の発生頻度だけを見ても、100,000回中11回しか同水準以上の低下が起きず、推定p値は0.00011未満だった
人間心理学ベースのヒューリスティックは、CoT失敗事例を効果量と発生頻度の両面でよりよく見つける助けになる
ただしこのヒューリスティックは、CoTが悪いすべての事例を網羅するものではなく、人間には興味深くなくてもモデルには重要な失敗事例を見落とす可能性がある

CoTの展開と評価への示唆

CoTはモデル能力を拡張する効果的な方法だが、特定の設定では性能を大きく下げうるため、デフォルト適用の是非は課題ごとに検討すべきである
言語が微細な知覚差をうまく表現できない課題、複雑な統計パターンを暗黙的に捉える必要がある課題、例外の多い規則学習課題では、言語的な中間推論が妨げになりうる
人間とモデルの結果をそのまま同一視することはできず、モデルを人間のように擬人化する結論はこの研究の範囲ではない
人間とモデルの違いも評価に反映する必要がある
- モデルは人間より長いコンテキストを使える
- モデルは学習コーパスで論理パターンや問題解法に触れている可能性がある
- モデルは人間の運動経験ベースのシミュレーションを共有していない可能性がある
今後は比較・類推promptingのような他の推論誘導手法についても、人間心理学の結果とモデルの制約をあわせて考慮して評価できる

思考が人間の成績を下げる課題におけるChain-of-thoughtの負の影響

CoTがデフォルトになるときに生じるリスク

人間心理学から持ち込んだ6つの評価タイプ

CoTが大きく揺らいだ3つの課題

暗黙的統計学習: 人工文法分類

CoTは大半のモデルで精度を下げる

顔認識: 言語化しにくい視覚刺激

例外のある規則学習: 車両ラベル分類

人間とモデルの差が現れた3つの課題

論理的不一致判断

空間直観

多次元選好集約

ヒューリスティックの検証と限界

CoTの展開と評価への示唆

関連記事

まだコメントはありません。