Putnamの問題をわずかに変形すると、o1-previewの精度が30%低下
(openreview.net)-
Putnam-AXIOMベンチマークの紹介
- Putnam-AXIOMは、LLM(大規模言語モデル)の数学的推論能力を評価するための挑戦的なベンチマークです。
- William Lowell Putnam Mathematical Competitionの236件の数学問題と段階的な解答を含みます。
- データ汚染を防ぐために、52件の問題に機能的変形を適用したPutnam-AXIOM Variationベンチマークを作成しました。
- 問題の要素(変数、定数など)をプログラム的に変更することで、オンライン上に存在しない新しい問題を無限に生成できます。
-
ベンチマークの重要性と結果
- ほとんどのモデルで、変形した問題の方が元の問題より精度が大きく低下しました。
- OpenAIのo1-previewモデルはPutnam-AXIOM Originalで41.95%の精度を記録しましたが、変形データセットでは精度が約30%低下しました。
-
レビューアのフィードバック
- レビューア9XA: ベンチマークは問題の形式化、回答の同等性チェックなどでノイズを最小化するよう設計されていますが、データ汚染防止のレベルが十分でない可能性があります。機能的変形は53問のみに適用されており、評価の威力が減少する可能性があります。
- レビューアkrr4: データセットが236件の例で構成されており、ベンチマークとして十分に説得力があるとは言い難い可能性があります。ほとんどのモデルが低い精度を示していることから、問題難易度はより階層的であるべきです。
- レビューアNbvs: 数学的問題解決能力を評価するための挑戦的な問題セットを提供する有意義な貢献です。問題変形は、現在のボックスベースの評価体制で問題損失を減らす良い戦略になり得ます。
- レビューアMsMi: 新しい難易度の高い推論ベンチマークとして、強力なモデルでもこのベンチマークで十分に機能しない。"\boxed{}"コマンドの使用を要求することで、ベンチマークの表現力を制限しています。
-
追加の質問と提案
- "\boxed{}"コマンドを正しく使用しなかったことによる誤採点の問題数に関する質問。
- 問題を継続的に編集して、どのモデルも暗記できないデータセットを維持するためのアルゴリズム的な方法に関する質問。
1件のコメント
Hacker News の意見