Putnamの問題をわずかに変形すると、o1-previewの精度が30%低下

(openreview.net)

1 ポイント投稿者 GN⁺ 2025-01-02 | 1件のコメント | WhatsAppで共有

Putnam-AXIOMベンチマークの紹介
- Putnam-AXIOMは、LLM（大規模言語モデル）の数学的推論能力を評価するための挑戦的なベンチマークです。
- William Lowell Putnam Mathematical Competitionの236件の数学問題と段階的な解答を含みます。
- データ汚染を防ぐために、52件の問題に機能的変形を適用したPutnam-AXIOM Variationベンチマークを作成しました。
- 問題の要素（変数、定数など）をプログラム的に変更することで、オンライン上に存在しない新しい問題を無限に生成できます。
ベンチマークの重要性と結果
- ほとんどのモデルで、変形した問題の方が元の問題より精度が大きく低下しました。
- OpenAIのo1-previewモデルはPutnam-AXIOM Originalで41.95%の精度を記録しましたが、変形データセットでは精度が約30%低下しました。
レビューアのフィードバック
- レビューア9XA: ベンチマークは問題の形式化、回答の同等性チェックなどでノイズを最小化するよう設計されていますが、データ汚染防止のレベルが十分でない可能性があります。機能的変形は53問のみに適用されており、評価の威力が減少する可能性があります。
- レビューアkrr4: データセットが236件の例で構成されており、ベンチマークとして十分に説得力があるとは言い難い可能性があります。ほとんどのモデルが低い精度を示していることから、問題難易度はより階層的であるべきです。
- レビューアNbvs: 数学的問題解決能力を評価するための挑戦的な問題セットを提供する有意義な貢献です。問題変形は、現在のボックスベースの評価体制で問題損失を減らす良い戦略になり得ます。
- レビューアMsMi: 新しい難易度の高い推論ベンチマークとして、強力なモデルでもこのベンチマークで十分に機能しない。"\boxed{}"コマンドの使用を要求することで、ベンチマークの表現力を制限しています。
追加の質問と提案
- "\boxed{}"コマンドを正しく使用しなかったことによる誤採点の問題数に関する質問。
- 問題を継続的に編集して、どのモデルも暗記できないデータセットを維持するためのアルゴリズム的な方法に関する質問。

1件のコメント

GN⁺ 2025-01-02

Hacker Newsの意見

この問題が最初に出たとき、ChatGPTが「10ポンドの羽毛と10ポンドのレンガではどちらが重いか？」に正解して、人々が盛り上がっていたのを覚えている
でも当然ながら当てられていて、その問題は学習データに入っていた可能性が高い
名詞だけ変えたり数字を変えて実際に片方がより重くなるようにすると、性能はばらつく
さっきchatgpt.comで「9.99ポンドの鋼塊1袋と10.01ポンドのふわふわした綿1袋ではどちらが重いか？」と聞いたところ、最初の回答では鋼塊のほうが重いと言い、最後には綿のほうが少し重いとして、正しくもあり間違ってもいる答えを出した
こうした能力を正しく見るには、必ず学習データの外に出なければならず、5秒以内に思いつくような問題はたいてい既によく見られたものか、他の人も簡単に思いつけるものだ
少しでも慣れた道から外れると、数学性能はずっと印象的でなく見える
- ChatGPT Plusで新しいセッションを開き、誘導なしで最初の答えだけを見ると、GPT-4、GPT-4o、GPT o1はいずれも10.01ポンドの綿の袋が9.99ポンドの鋼塊の袋より重いと正確に答える
  材質や密度には関係なく、同じ単位での重さ比較なので10.01は9.99より大きい、と説明する
- https://chatgpt.com/share/67756897-8974-8010-a0e0-c9e3b3e91f...
  今のところこのスレッドで人々がLLMにはできないと言っていた課題を、o1-miniがすべてうまく処理している
- サブスクなしで試すと、現時点ではたいてい4o-miniで生成された回答を受け取る可能性が高い
  これはリンク先の論文で扱われている推論モデル系列のo1、o1-mini、以前のo1-previewではない
  しかも主力の非推論モデルである4oですらない可能性があり、無料アカウントで表示される「4o auto」はモデル名ではなく、コスト効率よくモデルを自動選択するための仕組みに見える
  ChatGPTのサブスクがないと、以前のように使用量制限つきで特定モデルを選ぶことも、今ではできない
- Claude 3.5 Sonnetに古典的な医師のなぞなぞを尋ねたところ、思考過程を付け加えたことで答えは改善したが、実際には理解していない痕跡も見えた
  「女性と息子が交通事故に遭い、女性は死亡、子どもを診た医師が『この子は私の息子だから手術できない』と言った。どういうことか？」という質問に対して、「医師は子どもの父親だ」と答え、これが性別バイアスを示す古典的ななぞなぞだと説明した
  しかし本来の意図は、医師が母親でありうるという点を問う問題で、同性の親の可能性まで付け加えてはいたが、核心を外していた
- 私が最初に見た変形版は「1ポンドの羽毛と1ポンドの金ではどちらが重いか？」だったが、これはずっと難しい質問だ
  聞いた答えでは、金はトロイ重量で量り、羽毛は常用重量で量るので、トロイポンドは12オンス、常用ポンドは16オンスだから羽毛のほうが重いというものだった
  これらはすべて事実だが、答えとしては不完全だ
  常用ポンドがトロイポンドより重いのと同じように、常用オンスはトロイオンスより軽い
  ただしその差は、16オンス対12オンスという差を逆転させるほど大きくはないだけだ
  オンスの違いを認めないなら、公式の答えも素朴な答えと同じくらい間違った答えになる
実際には難しいだろうが、やってみたい実験は、1905年以前のあらゆるデジタル化資料、つまり論文・手紙・本・放送・講義などを学習させた上で、質量エネルギー等価式を尋ねることだ
はっきりした答えが出れば、パターン認識が知能の一形態かどうかという論争に決着をつけられる気がする
- 質量とエネルギーが等価かもしれないと考えた瞬間、次元解析だけでも式の選択肢はあまりない
  E=mc^2で興味深いのは公式そのものではなく、質量がエネルギーの一形態だという主張と、宇宙についての周辺的な観察だ
  1905年の本当の洞察は、正しい問いを立て、等価原理が本当に成り立ちうると想像したことのほうに近い
  数学のかなりの部分は1905年以前にすでに存在しており、AIの学習データにも入りうる: https://en.m.wikipedia.org/wiki/History_of_Lorentz_transform...
- Adam Brownが出演したポッドキャストで、似たようなアイデアを聞いた
  Einstein以前の本と論文だけでAIが特殊相対性理論を導けるなら、人工的推論の発展における次のゲームチェンジャー級の節目に到達したことになる、という考えだ
- 特許紛争もこういう形で判定すればよい
  LLMが見つけ出せるなら、新規性はないものと見なせばいい
- 1905年以前のデータが、モデルに「hello world」を安定して言わせるのに十分かどうかも疑わしい
  まともなLLMに必要なテラバイト級の学習データは存在しない気がするし、せいぜいギガバイト級にとどまるだろう
実際の課題でのLLMの性能は、アジア式試験を前に一夜漬けする学生にとてもよく似ているように感じる
完璧に吐き出す能力はあるが、意味の概念はない
- o3は初見のFrontierMath問題で25%を正解した
  答えがデータセットに直接あるときのほうがより得意なのは確かだが、保留されていた問題の新しさという点では、すでに平均的な人間を上回っている
- JEE Advancedを見ればよい
- 結局のところ、人間の愚かさを完璧に再現することに成功した、もう一つの証拠に近い
入力をほんの少し変えるだけで、モデルは予想していた質問へ戻ってしまい、間違えるように見える
もう少し大きく変えて、「まず既知の事実に分解し、関連する背景知識を持ち出し、それから複数の角度で評価して結論を出せ。最もありきたりな最初の結論をすぐに書くな」といった汎用プロンプト技法を入れれば、答えはずっと良くなるはずだ
これは「LLMは暗記なしではこういう問題も解けない間抜けな推論器」いうより、「予想されたパターンから外してだまそうとすると、LLMは質の悪い即答をする」に近く見える
LLMが暗記しているのはその通りだが、両義性がある
暗記済みの問題にあまりにも似せると、人間が顔に見えるものへ本能的に反応してから再評価するのと同じように、認識が揺らぐことがある
興味深いが、いくつか押さえておくべき点がある
第一に、o1 は変形された Putnam 問題でも 40% を超えており、これは大半の数学専攻の学生でも達成が難しい成績である
第二に、o3 は Epoch AI データセットの 25% を解いた
それらの問題が実際どれほど難しいのか疑問を呈する興味深い文章もあったが、それでもなお非常に印象的である
公平な結論としては、推論モデルは非常に難しい数学・競技プログラミング問題を依然としてよく解くが、見たことのある問題ではより強い、という程度に見える
- このスレッドのコメントは論文の内容と完全にかけ離れており、タイトルも怒りを煽ることに近く、論文内容を反映していない
  そのような問題のかなりの部分を解けること自体がかなり驚くべき成果であり、些細な変形にときどきだまされるとしても同じである
  「詐欺」や「虚偽」のような言葉を投げつけるのは、希望的観測や現実逃避に近い
モデルが現在、無作為なベンチマークに合わせて ハードコーディングされているというのが公然の秘密なのか気になる
チャットボットに Putnam 問題を尋ねること自体が奇妙に見える
- 人々がこうしたモデルに数学の問題を尋ね続け、当たれば実際に 数学的推論ができる証拠として引用するからである
  モデルが何を知っているのか判断しにくく、特定に学習した内容をそのまま吐き出している時点を見分けるのも難しい
- ハードコーディングではなく、それらの問題が何らかの形で 学習データの中に入っている可能性が高いと思う
- 設計上ハードコーディングできない試験も通過している
  依然としてあらゆる欠陥と一貫性の問題はあるが、誰かが 2+2 の答えを学習させたという理由で「2+2=4」と答えることに腹を立てるのは愚かである
- この作業は GSM-Symbolic 論文を Putnam に適用したものに近い: https://arxiv.org/html/2410.05229v1
  今後は LLM の性能を 攪乱されたベンチマークでもあわせて報告すべきである
これらは非常に効果的な パターンマッチャーである
パターンを変えると機能しない
誰かが、おそらく @tszzl（roon）が X で、o1 や o3 も依然として従来の方法で学習されており、AlphaGo のようなテスト時演算やモンテカルロ木探索はないと話していたのを覚えている
それが事実なら、依然として学習データに基づいて次の単語を予測しているのであり、小さな変形でも学習から得た最ももっともらしい経路をたどる可能性が高い
ただし、テスト時演算がまだ十分に探究されていないのであれば、性能向上の余地は長く残っている
また推測が難しい理由は、私たちが尋ねることのどれだけが学習データに入っているのか分からないからである
似た課題でも、うまくできるものもあれば失敗するものもある
- 最近 OpenAI 研究者のインタビューを 2 本見たが、o-series のブレークスルーは GPT series と違って テスト時演算に集中し、より「考える」よう設計したことであり、特にパターンマッチングを避けようとしていると説明していた
  Noam Brown https://youtu.be/OoL8K_AFqkw?si=ocIS0YDXLvaX9Xb6&t=195 および Mark Chen https://youtu.be/kO192K7_FaQ?si=moWiwYChj65osLGy
- スケーラブルなテスト時演算を使っていると思う
  o3 の発表では高演算量と低演算量の精度指標を分けて公開していたが、同じモデルでテスト時演算なしにそうするのは難しいように感じる
  200 ドルのサブスクリプションも、回答を強制する前にテスト時演算をより長く回せるようにするものだと思う
  ただし、テスト時演算がないという話が事実なら、Hugging Face の 1B/3B モデル実験を見ても、結果改善の余地は非常に大きい
- OpenAI は o1 と o3 が テスト時演算を使っていると公に明らかにしており、演算量が指数的に増えると性能が線形に向上するという対数スケールのグラフも公開した
  https://openai.com/index/learning-to-reason-with-llms/
  確認されているのは、モデルまたはシステムが思考連鎖を実行するという程度だが、指数的要因と推論性能向上の源は、複数の推論連鎖の上で木探索を行う 思考の木である可能性が高い
  roon は OpenAI 内部で身元がよく知られているはずで、従業員でもあるため、Twitter で実装の詳細を漏らすと期待するのは難しい
このワークショップ寄稿は悪くなく、問題の言い換え部分がなくてもベンチマークにはある程度の価値がある
しかし、少数の問題だけを言い換えた部分は、下手な表現（fig 3）や不必要な慣例破り（fig 4。2 次元の点には通常 P と座標 x,y を使う）のせいで、人間にとっても実際により混乱しやすくなっていることがある
最新または学習後の日付の問題について、ノイズ増加に伴う言い換え効果を示していれば、この混乱の一部を切り分けるのに良かっただろう
同じベンチマークで o3 がどれほど良いのかも気になる
そしてこの寄稿の正確なタイトルは “Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning” である
論文には修正された質問例がいくつもある
o1-preview から o1 へかなりの飛躍があったので、いくつかのサンプルを o1 と o1-pro に入れてみたところ、現在の o1 系列はその 修正問題に正しい答えを出す
最新の最高性能は急速に変わる
- 論文は、LLM が正答を出しても正当化なしに大きな飛躍をしたり、非論理的な段階を経た末に正しい解に到達したりすることが何度もあると述べている
  そうした部分も確認したのか気になる
- LLM 支持者たちは本当にうんざりする
  厳密な評価をしたわけでもなく、そのセットは 10 月から公開されていたので、学習データに容易に追加されていた可能性がある
o3がFrontierMathで25%を正答したという事実を無視して、否定的なコメントが多すぎる
これは本当に信じられないほどすごい結果だ
もちろん、問題の答えが学習データに直接含まれていれば、LLMはよりうまく解ける
しかし、それは答えが学習データにない場合に解けないという意味ではない
- EpochAIはモデルの採点のために質問をOpenAIに送る必要があり、正答集は送らない
  このベンチマークで一晩のうちに**2%から25%**へ跳ね上がったのは、少し興味深い現象だ
- FrontierMathで好成績だったのは事実だが、このスレッドの主題はそれではない
  だからその話はあまり関係がない

Putnamの問題をわずかに変形すると、o1-previewの精度が30%低下

関連記事

1件のコメント

Hacker Newsの意見