1 ポイント 投稿者 GN⁺ 2024-11-01 | まだコメントはありません。 | WhatsAppで共有

チェイン・オブ・ソート(Chain-of-Thought)と性能低下

  • チェイン・オブ・ソート(Chain-of-Thought, CoT)の概要

    • CoTは大規模言語モデルおよびマルチモーダルモデルで広く使われている戦略である。
    • 多くのタスクで性能を向上させることが知られているが、どのような設定で有効なのかを明らかにすることは、依然として進行中の課題である。
  • 研究目的

    • CoTがモデル性能を低下させうるタスクの特性を特定することを目指す。
    • 認知心理学に着想を得て、(i) 言語的な思考や熟考が人間の成績を妨げる場合、(ii) 人間の成績を支配する制約が言語モデルにも一般化される場合、を検討する。
  • 主な研究事例

    • 暗黙的統計学習、視覚的認識、例外を含むパターン分類という3つの事例を実験した。
    • さまざまな最新モデルで、推論時に思考を用いると性能が大きく低下することを発見した(例: OpenAI o1-previewはGPT-4oと比べて最大36.3%の絶対精度低下)。
  • 追加の発見

    • 条件 (i) は満たすが、(ii) は満たさない3つのタスクを特定した。
    • これらのタスクでは、言語的思考が人間の成績を低下させるにもかかわらず、CoTはモデル性能を維持または向上させた。
  • 結論

    • モデルの認知過程と人間の認知過程の間に正確な平行関係はないが、人間の成績に負の影響を及ぼす思考事例を考慮することは、モデルにも悪影響を与える設定を特定する助けになる。
    • 人間の熟考に関する文献とCoT評価を結び付けることで、プロンプト選択と推論時の思考の影響を理解するための新しい道具を提供する。

GN⁺のまとめ

  • この研究は、CoTがあらゆる状況でモデル性能を向上させるわけではないことを示している。
  • 人間の思考が成績に負の影響を与える場合を通じて、モデルの性能低下を予測できる可能性を示している。
  • CoTの効果を理解するうえで、認知心理学の洞察を活用することは興味深い。
  • 類似の機能を持つプロジェクトとしては、OpenAIのさまざまな言語モデルが推奨される。

まだコメントはありません。

まだコメントはありません。