1 ポイント 投稿者 GN⁺ 2025-01-02 | 1件のコメント | WhatsAppで共有
  • Putnam-AXIOMベンチマークの紹介

    • Putnam-AXIOMは、LLM(大規模言語モデル)の数学的推論能力を評価するための挑戦的なベンチマークです。
    • William Lowell Putnam Mathematical Competitionの236件の数学問題と段階的な解答を含みます。
    • データ汚染を防ぐために、52件の問題に機能的変形を適用したPutnam-AXIOM Variationベンチマークを作成しました。
    • 問題の要素(変数、定数など)をプログラム的に変更することで、オンライン上に存在しない新しい問題を無限に生成できます。
  • ベンチマークの重要性と結果

    • ほとんどのモデルで、変形した問題の方が元の問題より精度が大きく低下しました。
    • OpenAIのo1-previewモデルはPutnam-AXIOM Originalで41.95%の精度を記録しましたが、変形データセットでは精度が約30%低下しました。
  • レビューアのフィードバック

    • レビューア9XA: ベンチマークは問題の形式化、回答の同等性チェックなどでノイズを最小化するよう設計されていますが、データ汚染防止のレベルが十分でない可能性があります。機能的変形は53問のみに適用されており、評価の威力が減少する可能性があります。
    • レビューアkrr4: データセットが236件の例で構成されており、ベンチマークとして十分に説得力があるとは言い難い可能性があります。ほとんどのモデルが低い精度を示していることから、問題難易度はより階層的であるべきです。
    • レビューアNbvs: 数学的問題解決能力を評価するための挑戦的な問題セットを提供する有意義な貢献です。問題変形は、現在のボックスベースの評価体制で問題損失を減らす良い戦略になり得ます。
    • レビューアMsMi: 新しい難易度の高い推論ベンチマークとして、強力なモデルでもこのベンチマークで十分に機能しない。"\boxed{}"コマンドの使用を要求することで、ベンチマークの表現力を制限しています。
  • 追加の質問と提案

    • "\boxed{}"コマンドを正しく使用しなかったことによる誤採点の問題数に関する質問。
    • 問題を継続的に編集して、どのモデルも暗記できないデータセットを維持するためのアルゴリズム的な方法に関する質問。

1件のコメント

 
GN⁺ 2025-01-02
Hacker News の意見
  • ChatGPT が「10ポンドの羽毛と 10 ポンドのレンガ、どちらが重いか?」という問題を正確に解いていた時代を思い出す意見がある。だが、問題を少し変えると性能が低下することが指摘された。
    • 例えば「9.99ポンドの鋼と 10.01ポンドの綿ではどちらが重いか?」という問いに、誤った回答を出した。
    • モデルの真の能力を分析するには、訓練データの外側にあるものを評価すべきだ。
  • 1905 年以前のすべてのデジタル化されたデータを基盤にモデルを訓練し、質量-エネルギー等価の公式について問いかける実験が見たいという意見がある。
    • パターン認識が知性の一形態かどうかという議論を解決できるだろうという期待がある。
  • LLM の実作業性能は、アジア式試験のための学生の受験詰め込み学習に似ているという意見がある。
    • 意味を理解せずに完璧に丸暗記して再現する能力にすぎない。
  • 入力をほんの少し変えるだけで、モデルが想定していた問いへ戻り、誤った回答を返してしまう可能性があるという意見がある。
    • 問題を多角的に評価して結論を引き出すよう促すと、より良い回答が得られる。
  • LLM は依然として非常に難しい数学および競技プログラミング問題を解くのが優れているという意見がある。
    • ただし、以前に見た問題に対してよりよく対処できる。
  • モデルが現在のランダムベンチマークに対してハードコーディングされていることが公の秘密かどうか疑問視されている。
  • 問題の再構成が人間にも混乱をもたらす可能性があるという意見がある。
    • 最近の問題再構成の効果を見てみたいという意見がある。
  • パターンマッチングには非常に効果的だが、パターンを変更すると機能しなくなるという意見がある。
    • 従来の訓練方法であり、テストタイム計算やモンテカルロ木探索はないことを指摘している。
  • OpenAI が特定のデータセットで性能向上を主張していない点を指摘する意見がある。
    • そのデータセットの質問に関しては性能が大きく向上したという結論が導けるだろう。
  • o1-preview から o1 への性能向上があり、修正した問題に対して正しい回答をしていたという意見がある。
    • SOTA は急速に変化している