GSM-Symbolic: 大規模言語モデルの数学的推論の限界を理解する
- 近年の大規模言語モデル(LLM)の進歩は、数学における形式的推論能力への関心を呼び起こしている。
- GSM8Kベンチマークは、小学校レベルの問題に対するモデルの数学的推論を評価するために広く利用されている。
- LLMのGSM8Kでの性能は近年大きく向上したが、実際に数学的推論能力が発展したのかは不明である。
- この問題に対処するため、複数の最新オープンモデルおよびクローズドモデルを対象に大規模な研究を実施した。
- 既存評価の限界を克服するため、多様な問題生成を可能にする記号的テンプレートで構成された改良版ベンチマークGSM-Symbolicを導入した。
- GSM-Symbolicは、より統制された評価を可能にし、推論能力を測定するうえでより信頼性の高い指標を提供する。
- 研究の結果、LLMは同一の問題の異なる実装に応答する際、顕著なばらつきを示した。
- 特に、GSM-Symbolicベンチマークでは、問題中の数値を変更するだけでもすべてのモデルで性能が低下した。
- また、これらのモデルの数学的推論の脆弱性を調査した結果、問題文の節の数が増えるほど性能が大きく低下することが示された。
- これは、現在のLLMが真の論理的推論を行えておらず、訓練データ内の推論ステップを複製しているためだと仮定している。
- 関連がありそうに見える節を1つ追加するだけで、最終的な答えに必要な推論チェーンに寄与しなくても、すべての最新モデルで最大65%の性能低下が発生した。
GN⁺の要約
- この研究は、大規模言語モデルの数学的推論能力とその限界を、よりきめ細かく理解するのに役立つ。
- GSM-Symbolicベンチマークは、多様な問題を通じてモデルの推論能力をより正確に評価できるツールを提供する。
- この研究は、LLMが実際の論理的推論よりも、訓練データの推論ステップを複製する傾向があることを示している。
- 数学的推論能力を評価する他のベンチマークとしては、MATH、MATHQAなどが推奨される。
1件のコメント
Hacker Newsの意見