- 大規模言語モデルの数学的推論能力の向上を目標に、単なる正答率を超えて推論過程の検証可能性を強化したモデル
- 既存の強化学習ベースのアプローチが最終回答報酬中心で限界を示した点を改善し、**自己検証(self-verification)**メカニズムを導入
- **定理証明(theorem proving)**のように段階的な論理展開が必要な問題で、生成モデルが自分で誤りを見つけて修正するよう設計
- 検証器(verifier)を報酬モデルとして活用し、検証計算量を拡張して難しい証明データを自動ラベル付けすることで継続的に性能を向上
- IMO 2025、CMO 2024、Putnam 2024などで最上位レベルのスコアを記録し、自己検証型数学AIの実現可能性を実証
1. イントロダクション (Introduction)
- 大規模言語モデル(LLM)は数学的推論で大きな進歩を遂げ、AI研究の重要な試金石として機能している
- 強化学習によって正答報酬ベース学習を行い、AIME、HMMTなどの大会で1年で上位性能を獲得
- しかし、単に最終回答の正確性を高めるアプローチには限界がある
- 正答が合っていても推論過程の妥当性は保証されず、定理証明のようにステップごとの論理展開が必要な問題には適用できない
- これを解決するために**自己検証(self-verification)**という概念を導入し、推論の網羅性と厳密性を評価するよう設計
- 特に**回答が未解決な問題(open problems)**で検証時の計算拡張に不可欠な要素として提示
- 研究チームは**正確で信頼できるLLMベースの検証器(verifier)を訓練し、これを報酬モデルとして用いて証明生成器(generator)**を学習
- 生成器が自ら証明内の誤りを見つけて修正するよう促す
- 生成器の性能が向上すると、検証難易度も高くなるため、**検証計算を拡大(scale verification compute)**し、より難しい証明を自動ラベル付け
- 結果としてのモデルDeepSeekMath-V2は、IMO 2025、CMO 2024で金メダル級の成績、Putnam 2024で118/120点を記録
- これらの結果は、自己検証型数学推論が実現可能な研究方向であることを示している
2. 評価結果 (Evaluation Results)
- 評価には、DeepMindのDeepThink IMO-Goldチームが開発したIMO-ProofBenchと、最近の数学コンテスト(IMO 2025、CMO 2024、Putnam 2024)が使用されている
3. モデルアーキテクチャ (Model Architecture)
- DeepSeekMath-V2はDeepSeek-V3.2-Exp-Baseモデルを基盤として構築
- 推論(inference)に関するサポートはDeepSeek-V3.2-Exp GitHubリポジトリを参照
4. ライセンス (License)
- モデルと重みはApache License 2.0のもとで配布
5. 引用情報 (Citation)
- 研究者と論文情報が明示されており、タイトルは
“DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)
6. その他情報
- 最近1か月のダウンロード数は4,434回
- モデルツリーの構成時に、基本モデルが自己参照ループを形成し、ツリー作成不可として表示
1件のコメント
Hacker Newsの意見
今回公開されたモデルは、Apache 2.0ライセンスで重みをオープンソースとして公開している。
OpenAIやDeepMindのIMO金メダルモデルは、依然として非公開のままだ。
以前の議論はこのリンクにある。
オープンウェイトモデルが、数学や推論のような特化領域で急速に追いついているのは印象的だ。
複雑な論理やコーディング関連のテストも試した人がいるのか気になる。数学性能が高いモデルは、しばしばデバッグやアルゴリズム生成でも強い。
このモデルの成果については、懐疑的な見方も必要だと思う。
インターネットで収集した問題をそのまま学習したと明記しているが、ベンチマーク汚染の除去や2024/2025年の問題を除外したかどうかには触れていない。
OpenAIやGoogleは、2025年の問題に事前アクセスできない状態で実験モデルをテストしていた。
OpenAIの金メダルモデルが、なぜまだ公開されていないのか気になる。
今回のモデルは汎用モデルではないことが重要だ。GoogleとOpenAIのモデルは汎用モデルを使っていた。
こうしたモデルを自宅で動かすにはどうすればいいのか気になる。
CPUベースでRAM 1TBほどあれば可能なのだろうか、という疑問だ。
もしかすると、このモデルはOpenAIやGoogleの出力を**直接蒸留(distill)**したものではないかと疑っている。
このモデルがOpenRouterに載る予定があるのか気になる。
OpenAIがChatGPTに広告を入れたら、人々はすぐ別のモデルに移るのではないかという疑問だ。