5 ポイント 投稿者 GN⁺ 2025-07-20 | 1件のコメント | WhatsAppで共有
  • OpenAIが開発した実験的な推論LLMが、2025年の国際数学オリンピック(IMO)で金メダル級の成績を記録
  • 公式IMO規定と同様に、問題解答と自然言語による証明作成を行い、人間の採点者3名の全会一致による採点で42点満点中**35点(6問中5問を解決)**を獲得
  • IMOの問題は高難度の創造的思考・多段階の証明を要求し、LLMが従来のRL方式の限界を超えて人間レベルの論理的証明を生成できる可能性を実証
  • 特定課題中心ではなく、汎用強化学習とテスト時演算の拡張によって達成した点に大きな意義
  • モデルは近く公開されるGPT-5とは別の研究用バージョンであり、数学における最高水準の性能公開は数か月後の予定

OpenAI LLMのIMO 2025における成果概要

  • OpenAIのAlexander Wei(@alexwei_)は、最新の実験的推論言語モデルが2025年IMOで金メダル基準の成績を記録したと発表
    • IMOは、世界中で数学的に最も優れた若者たちが参加する高難度の大会であり、複雑な論理的推論と深い概念理解を要する問題で知られる
  • 評価方式は人間の参加者と同一で、2回の4.5時間試験、公式問題用紙の使用、外部ツール不使用、自然言語による証明提出で実施
  • 各問題は3人の元IMOメダリストが独立に採点し、全会一致の合意によって点数を確定

成果の意義と進化した難易度

  • IMOの問題は、既存ベンチマーク(GSM8K、MATH、AIME)よりもはるかに長い思考時間・創造性・複雑な論証を要求
  • 今回のモデルは5問(P1〜P5)を完全解決し、P6は未提出で35/42点を獲得、実際のIMO金メダル基準を満たした
  • 数ページに及ぶ論理的証明を生成する能力は、従来の強化学習(RL)の限界を超える

研究アプローチとAI発展の文脈

  • 特定の問題解決だけを目的としたモデルではなく、汎用RLと計算拡張を基盤として高性能を達成
  • 既存RLが提供する明確な報酬体系なしに、複雑で創造的な成果物の生成に成功
  • 実験用モデルであり、近く公開されるGPT-5とは別物で、この水準の数学機能は数か月以内に一般公開しない予定

今後の展望とコミュニティへの言及

  • AIの数学能力の進歩速度は予想を大きく上回っている(2021年時点でのMATHベンチマーク30%予測に対し、IMO金メダルを達成)
  • Alexanderは2025年IMO参加者全員に祝意を伝え、チーム内に過去のIMO参加者が多い点も強調
  • モデルによる2025年IMO問題の解答も公開予定だが、実験的なスタイルになる見込み

1件のコメント

 
GN⁺ 2025-07-20
Hacker Newsの反応
  • Noam Brown: 最先端の研究所で働いていると、たいていは数か月先の新しい能力を先に目にすることになるが、今回の結果はごく最近開発された手法を使った本当に新しい成果だった。OpenAI内部の研究者にとっても驚きだったし、今日になってようやく誰もが最先端がどこまで来ているか確認できるようになった。
    また、今回は少人数のチームが主導した成果で、Alex Weiが、あまり多くの人に信じられていなかった研究アイデアを実際の成果に変えた。OpenAIとAIコミュニティの長年の研究とエンジニアリングも大きな役割を果たした。
    リンク: https://x.com/polynoamial/status/1946478258968531288

    • その新技術って、まさかテストデータで訓練したとかじゃないよね /冗談
  • 興味深いのは、IMOの解答がかなり制限された語彙を使っていること。印象的だ。
    リンク: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt 「少ない言葉のほうが効果的なときに、わざわざ長く書く必要はない」
    そして注目すべきなのは、Alex Wei本人もIOI金メダリストだということだ。

    • ある意味で、実際の参加者が解いている途中で残すメモに似て見えるのが面白い。無駄な言葉を減らせば情報のノイズが減って集中しやすくなる。特にLLMは1回に1トークンずつ生成し、コンテキスト長の制限もある構造なので、意味のあるトークンだけを使えば、より長く一貫した思考の流れにつながるのかもしれないと思う。
    • IOI(情報オリンピック)で金メダルを取った人なのに、ここで議論されているのはIMO(数学オリンピック)だという点が面白い。
    • Terence Taoも最近のポッドキャストで、今年LLMが金メダルを取るだろうと予想していた。
    • Transformerでは、どんな意味を持つかに関係なく各トークンの生成に同じ時間がかかる。テキスト中の反復的または不要な部分を削れば、速度は大幅に上がる。
    • 「see the world」と言ったとき、「世界を見よ」なのか、それとも「seaworld(シーワールド)」みたいな語呂合わせなのか聞いてみたい。
  • これが高校生レベルだと侮る人には、IMOの問題を一度解いてみることを勧めたい。今年の問題も含めてすべて公開されている。
    リンク: https://www.imo-official.org/problems.aspx
    自分は頭がくらくらする。

    • 関連して、こうした問題を実際にどう考え、どう解いていくかを見せてくれる動画がある。
    • こういう問題解説のYouTube動画を見るのが好きだ。表面的には簡単そうに見えるのに、実際はトリックのようだ。
      たとえば x+y=1, xy=1 のような問題を見たことがあるが、いざ解法を見ると、因数分解や解の公式など、私たちが知っている基本的な代数学しか使っていないのに、その説明までもが美しい。
      長く考えれば答えにたどり着けそうな気がするが、自分の経験ではまったくそうではない。
      リンク: https://www.youtube.com/watch?v=csS4BjQuhCc
    • こういうIMOの問題は、leetcodeのhard難易度の問題と比べるとどんな感じなのか気になる。
    • IMOの問題に複数言語版があることを今回初めて知った。
      50言語くらいあるようだが、それだけ多いと問題流出などのセキュリティ維持がずっと難しくなりそうだと思った。
  • こうした問題が高校生レベルというのは、あくまで前提知識の話であって、難易度としては非常に高い。
    IMO出身ではない専門の数学者でも、こういうパフォーマンスを出すのは難しい。
    これはAIが数学的に人間より優れているという意味ではなく、数学者は数学のフロンティアを広げることに重点を置いている。
    正答が訓練データに含まれていたわけではないと言われている。
    そして、このモデルはIMO問題専用のモデルでもないと主張している。

    • 自分の記憶では、データサイエンスをやっていたとき、検証セットのリークを防ぐのは思った以上にとても難しいと感じた。
      訓練過程を継続的にチューニングし、検証セットの性能が上がると、それに合わせて再び構造やデータを選び直す。
      意図しなくても、検証セットの情報が少しずつモデルに染み込んでしまう。
      検証セットの選び方を変えるだけで、まったく別のモデルができあがる。
    • 本当にIMO特化モデルではないのか疑わしい。Twitterスレッドでは「一般推論」と言っていたが、本当にオリンピック数学の問題でRL(強化学習)していないのなら、OpenAI側の公式な言及をぜひ聞きたい。
    • 「IMOに特化したモデルではない」という主張の根拠が何なのか気になる。
    • 「正答が訓練データにない」「IMO特化モデルではない」という点に、どんな根拠や証拠があるのか気になる。
    • どう見てもIMO特化モデルであることはほぼ確実に見える。
      問題への答え方もまさにそう感じる。
      例: https://xcancel.com/alexwei_/status/1946477742855532918
      実際の回答スクリーンショット: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
      AlphaProofスタイルで自然言語とLeanのようなシステムを行き来しているように見える。
      OpenAIはこうした実装の詳細を共有しないだろう。
  • スレッドでは: 「モデルはP1〜P5は解いたが、P6には答えを出せなかった」
    最も難しい問題(P6)は人間でもほとんど解けない問題で、中国代表チームですら42点満点中21点しか取れず、他の大半の国では誰も解けなかった。

    • IMOでは1日目にP1,P2,P3、2日目にP4,P5,P6を見る。
      通常、難易度順はP1, P4, P2, P5, P3, P6になるよう意図されており、P1が最も易しくP6が最も難しい。
      実際にはこの順番と異なることもある。
    • カナダチームの誰かがP6を解いたようだが、全体としてはごく一部だ。
    • 機械が人間と同じように難しいと感じる問題、特にP6で解けなかったという点は、人間が介在した可能性を示すヒントにも見える。
      単なる機械的な偶然だとしても、誤った解答を出力することもできたはずなのに、正しい解答だけを選んだのではないか、つまり成功した結果だけを選別したのではないかという疑問が残る。
  • Googleも今回のIMOに参加して金賞を取った。
    リンク: https://x.com/natolambert/status/1946569475396120653
    OAIが先に発表したので、Googleもまもなく公式発表する気がする。

    • Noam Brownの「OpenAI内部の研究者も驚いた成果だった」という発言を見ると、複数の研究所が同時にこうした結果を出していたのだとすれば、なおさら驚くべきことだ。
      Twitterでは、GoogleはLeanを使った一方で、OpenAIはツールなしでLLMだけを使ったという話があった。
      どの方式であっても結果そのもののほうが重要ではあるが、具体的な手法の限界や進歩の過程も興味深い参考情報だ。
    • GoogleのAlphaProofは昨年銀賞を取り、ニューラル+シンボリックなアプローチを使っていた。
      OpenAIの金賞は純粋なLLMだけで可能だったという点が特異だ。
      Googleが公式発表すれば、どんなアプローチを使ったのか分かるだろう。
      LLM方式の利点は、数学的証明だけでなく、多様な推論問題へ汎用化できる可能性が高いことにある。
  • Noam Brown:
    これはIMO特化モデルではなく、新しい実験的な汎用手法が入った推論LLMだ。
    o1やo3より思考過程がはるかに効率的で、テスト時の効率性も今後さらに押し進められる。
    最近のAIの進歩は速かったが、今後も続くと期待している。
    特にAIが科学的発見に本格的に貢献する時期が近づいていると見ている。
    自分は最近まで進歩が鈍化していると思っていたが、いくつかの主張(特化モデルではないことや効率改善の余地)から、実質的な進歩は非常に明白だ。
    リンク: https://x.com/polynoamial/status/1946478249187377206

    • 「試験問題を解くモデル」から「科学的発見に貢献するAI」への飛躍には、かなり大きな隔たりがあると思う。
    • 夢のある話ではあるが、司法試験のような特定の試験に合わせて微調整したのと同じように、こうしたモデルも過去の試験問題で訓練されていることが多い。
    • ファインチューニングの過程でツール使用(自動証明ツールなど)が併用されたのか気になる。
    • 「o1やo3より思考が効率的」という部分、
      「相手が(固定された)応答戦略を取るなら絶対に負けない。彼女が勝つには(相手を負かすには)Q_{even-1}>even、つまりある a_j> sqrt2 でなければならないが、すでに a_j<=c< sqrt2 である。したがって絶対に負けない」など、
      少ない言葉で効率を最大化しようとする姿勢が見える。
      リンク: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
    • 今やデータが不足する「ピークデータ」に達した時点で、効率向上の明確な進路が何なのか気になってくる。
  • 本当に印象的な成果だが、どうやって実現したのか気になる。
    Weiが推測していた「テスト時の計算資源拡大(scaling up test-time compute)」を見ると、とてつもない金額を投じたのではと思う。
    何千回、何万回も並列実行して最良の結果だけを選んだのだとしたらがっかりだ。
    本当にきちんとした成果なら、どんなツールを使い、どう活用したのか透明に明らかにすべきだ。
    検証が難しい問題で性能を上げるさまざまな手法が、おそらくここに含まれているのだろう。

    • 並列で10000回回したとしても、そこまで興味が薄れるわけではない。
      むしろ正答の正確さと厳密さを見分けられるという意味であり、それは人間がまれに解けるのと本質的に変わらない。
    • Twitterスレッドによれば、別のツールは与えられていなかったという。
    • 実際、OpenAIが何千回、何万回と並列実行し、結果だけを選んだ可能性は高いと思う。
      これは初期のo3 ARCベンチマークのときもそうだったやり方だ。
      おそらく複数のエージェントが協調する方式かもしれず、コンテキスト長(トークン数制限)は回避できたはずだ。
      今やAIはたいていの数学問題で、すでに99.99%の人間を超えているのだから、99.999%を超えたとしても特別驚くことではない。
    • もしOpenAIが10000回回して人間が結果を手作業で選んでいたのなら、意味は大きく変わる。
      LLM自身が検証しながら採択したのであれば、人間が難問に何度も挑戦して解き切る過程に近い。
      違いは、AIは豊富な計算資源を使って並列に試せるのに対し、人間は順番にしか試せない点だ。
  • この大会(IMO)はあまりにも上位層向けの大会なので、プログラマーのコミュニティでも、この大会が正確に何なのか知らない人が多い気がする。
    ざっくり計算すると、米国ではキャンプに選ばれる人数(金メダル候補)がだいたい20人で、該当する世代の高校生全体を2000万人とすると、「100万人に1人」級の才能だ。

    • 大会の難易度がとてつもないことを矮小化したいわけではない。
      自分も進学校を出たが、IMOというものを知ったのは大学に入って参加者たちに会ってからだった。
      実際に大会を認識して参加する生徒数は、全体の生徒数よりはるかに少ない。
      実力は別として、多くの生徒は機会や情報さえ十分にあれば、良い結果を出せた可能性もあると思う。
  • 最近、LLMのIMO 2025評価に関するレポートを見たが、o3 highは銅賞相当にも届いていなかった。
    リンク: https://matharena.ai/imo/
    Terry Taoの意見も気になるが、こういう分野の進歩こそAIの前向きな活用だと思う。
    経済が準備できていない状態で無秩序にイノベーションを進めるより、科学の進歩を加速する方向に貢献してほしい。