2 ポイント 投稿者 GN⁺ 2024-10-13 | 1件のコメント | WhatsAppで共有

GSM-Symbolic: 大規模言語モデルの数学的推論の限界を理解する

  • 近年の大規模言語モデル(LLM)の進歩は、数学における形式的推論能力への関心を呼び起こしている。
  • GSM8Kベンチマークは、小学校レベルの問題に対するモデルの数学的推論を評価するために広く利用されている。
  • LLMのGSM8Kでの性能は近年大きく向上したが、実際に数学的推論能力が発展したのかは不明である。
  • この問題に対処するため、複数の最新オープンモデルおよびクローズドモデルを対象に大規模な研究を実施した。
  • 既存評価の限界を克服するため、多様な問題生成を可能にする記号的テンプレートで構成された改良版ベンチマークGSM-Symbolicを導入した。
  • GSM-Symbolicは、より統制された評価を可能にし、推論能力を測定するうえでより信頼性の高い指標を提供する。
  • 研究の結果、LLMは同一の問題の異なる実装に応答する際、顕著なばらつきを示した。
  • 特に、GSM-Symbolicベンチマークでは、問題中の数値を変更するだけでもすべてのモデルで性能が低下した。
  • また、これらのモデルの数学的推論の脆弱性を調査した結果、問題文の節の数が増えるほど性能が大きく低下することが示された。
  • これは、現在のLLMが真の論理的推論を行えておらず、訓練データ内の推論ステップを複製しているためだと仮定している。
  • 関連がありそうに見える節を1つ追加するだけで、最終的な答えに必要な推論チェーンに寄与しなくても、すべての最新モデルで最大65%の性能低下が発生した。

GN⁺の要約

  • この研究は、大規模言語モデルの数学的推論能力とその限界を、よりきめ細かく理解するのに役立つ。
  • GSM-Symbolicベンチマークは、多様な問題を通じてモデルの推論能力をより正確に評価できるツールを提供する。
  • この研究は、LLMが実際の論理的推論よりも、訓練データの推論ステップを複製する傾向があることを示している。
  • 数学的推論能力を評価する他のベンチマークとしては、MATH、MATHQAなどが推奨される。

1件のコメント

 
GN⁺ 2024-10-13
Hacker Newsの意見
  • LLMの性能低下は大学新入生の問題解決能力に似ている。簡単な問題はうまく解けるが、複数の段階をつなげる必要がある問題では正確性が落ちる。これは、LLMが高校卒業生レベルの論理的思考はできることを意味する
    • たとえば、不要な情報が含まれた問題ではLLMの性能が大きく低下する。これは人間でも同様で、不要な情報を含む問題文を読むと起こりうる状況である
  • 数学的推論の脆弱性を研究した結果、質問の節が多くなるほど性能が低下した。これは、LLMが真の論理的推論をできないためかもしれない
    • トークン化の過程で、単純な算術問題の予測が無意味になる。これはツール利用の必要性を示唆する一方で、真の論理的推論には否定的である
  • 「Alice in Wonderland」問題と似た結果が見られる。これは、パターンマッチングと推論の中間状態にあるモデルの問題かもしれない
    • 数学や推論に関するLLMベンチマークの結果を信頼できないことを示唆している。問題の文字、数字、文の構造が結果に大きく影響する
  • GSM-Symbolicベンチマークでは、数値だけを変更してもすべてのモデルの性能が低下する。これは過学習の証拠であり、LLMが数学的推論を学習するうえで根本的な限界があることを示している
  • LLMの「思考」方式は、たいていの学校課程を通過できるレベルにある。しかし、パターンマッチングに依存しない問題を出す教師がいる場合には苦戦する可能性がある
  • よく知られた論理パズルで、LLMは特定の要素を変更すると問題を解けなくなる。これは、LLMが形式的推論をできないことを示している
  • LLMは形式的推論はできないが、訓練データ内の「推論ステップ」を適用して多くの論理問題を解くことはできる。これは興味深い二分法である
  • 人間や動物の数学的推論の限界を示せる研究があれば興味深い。人間には理解できないアイデアがあるかもしれず、それによって人間にはできない方法で推論できる機械を作れるのか気になる