5 ポイント 投稿者 GN⁺ 2025-12-02 | 1件のコメント | WhatsAppで共有
  • 大規模言語モデルの数学的推論能力の向上を目標に、単なる正答率を超えて推論過程の検証可能性を強化したモデル
  • 既存の強化学習ベースのアプローチが最終回答報酬中心で限界を示した点を改善し、**自己検証(self-verification)**メカニズムを導入
  • **定理証明(theorem proving)**のように段階的な論理展開が必要な問題で、生成モデルが自分で誤りを見つけて修正するよう設計
  • 検証器(verifier)を報酬モデルとして活用し、検証計算量を拡張して難しい証明データを自動ラベル付けすることで継続的に性能を向上
  • IMO 2025、CMO 2024、Putnam 2024などで最上位レベルのスコアを記録し、自己検証型数学AIの実現可能性を実証

1. イントロダクション (Introduction)

  • 大規模言語モデル(LLM)は数学的推論で大きな進歩を遂げ、AI研究の重要な試金石として機能している
    • 強化学習によって正答報酬ベース学習を行い、AIME、HMMTなどの大会で1年で上位性能を獲得
  • しかし、単に最終回答の正確性を高めるアプローチには限界がある
    • 正答が合っていても推論過程の妥当性は保証されず、定理証明のようにステップごとの論理展開が必要な問題には適用できない
  • これを解決するために**自己検証(self-verification)**という概念を導入し、推論の網羅性と厳密性を評価するよう設計
    • 特に**回答が未解決な問題(open problems)**で検証時の計算拡張に不可欠な要素として提示
  • 研究チームは**正確で信頼できるLLMベースの検証器(verifier)を訓練し、これを報酬モデルとして用いて証明生成器(generator)**を学習
    • 生成器が自ら証明内の誤りを見つけて修正するよう促す
  • 生成器の性能が向上すると、検証難易度も高くなるため、**検証計算を拡大(scale verification compute)**し、より難しい証明を自動ラベル付け
    • これにより検証器の性能を継続的に改善
  • 結果としてのモデルDeepSeekMath-V2は、IMO 2025、CMO 2024で金メダル級の成績Putnam 2024で118/120点を記録
    • これらの結果は、自己検証型数学推論が実現可能な研究方向であることを示している

2. 評価結果 (Evaluation Results)

  • 評価には、DeepMindのDeepThink IMO-Goldチームが開発したIMO-ProofBenchと、最近の数学コンテスト(IMO 2025、CMO 2024、Putnam 2024)が使用されている
    • 具体的な数値や詳細結果は本文で明示されていない

3. モデルアーキテクチャ (Model Architecture)

  • DeepSeekMath-V2DeepSeek-V3.2-Exp-Baseモデルを基盤として構築
    • 推論(inference)に関するサポートはDeepSeek-V3.2-Exp GitHubリポジトリを参照

4. ライセンス (License)

  • モデルと重みはApache License 2.0のもとで配布

5. 引用情報 (Citation)

  • 研究者と論文情報が明示されており、タイトルは
    “DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)

6. その他情報

  • 最近1か月のダウンロード数は4,434回
  • モデルツリーの構成時に、基本モデルが自己参照ループを形成し、ツリー作成不可として表示

1件のコメント

 
GN⁺ 2025-12-02
Hacker Newsの意見
  • 今回公開されたモデルは、Apache 2.0ライセンスで重みをオープンソースとして公開している。
    OpenAIやDeepMindのIMO金メダルモデルは、依然として非公開のままだ。

    • AI企業が学習データの著作権を扱うやり方と同じように、こちらも重みの著作権をそう扱うべきだと思う。
    • ただし、重みだけ公開して訓練コードやデータを公開しなければ、依然として閉鎖的なモデルのままだ。
  • 以前の議論はこのリンクにある。

    • そのリンクを見逃していた、共有してくれてありがとう。
  • オープンウェイトモデルが、数学や推論のような特化領域で急速に追いついているのは印象的だ。
    複雑な論理やコーディング関連のテストも試した人がいるのか気になる。数学性能が高いモデルは、しばしばデバッグやアルゴリズム生成でも強い。

    • 特定ドメインに特化したモデルは商業的価値が低く、大規模LLMの学習は汎用性を好むため、自然な現象だ。
    • kimi-k2はコーディングではかなり良いが、AnthropicやOpenAI、GoogleのSOTAモデルの水準には及ばない。
  • このモデルの成果については、懐疑的な見方も必要だと思う。
    インターネットで収集した問題をそのまま学習したと明記しているが、ベンチマーク汚染の除去や2024/2025年の問題を除外したかどうかには触れていない。
    OpenAIやGoogleは、2025年の問題に事前アクセスできない状態で実験モデルをテストしていた。

  • OpenAIの金メダルモデルが、なぜまだ公開されていないのか気になる。

    • それは単なる宣伝用だった。そこで得た教訓を次の汎用モデルに反映する予定だ。
  • 今回のモデルは汎用モデルではないことが重要だ。GoogleとOpenAIのモデルは汎用モデルを使っていた。

    • 実際には、OpenAIとGoogleはどちらもIMO向けの特化研究モデルを使っていた。
      • OpenAIはこのツイートでGPT-5のリリースを予告し、IMOモデルは実験用なので当面公開予定はないと明かしている。
      • DeepMindは公式ブログで、強化学習ベースの多段階推論定理証明データでGeminiを訓練したと説明している。
    • DeepSeekの公式ポストもあわせて共有されている。
  • こうしたモデルを自宅で動かすにはどうすればいいのか気になる。
    CPUベースでRAM 1TBほどあれば可能なのだろうか、という疑問だ。

    • ダウンロードデータだけで690GBあるので、1TBのRAMが必要そうだ。自分の2台のStrix Haloマシンでも無理だ。
    • ik_llama.cppと十分なRAM、GPU1枚があれば、遅くても実行は可能だ。通常のllama.cppでも動くが、ikフォークのほうが効率的だ。
    • Thunderbolt 5で接続した512GBのMac Studio 2台でも可能だという。
  • もしかすると、このモデルはOpenAIやGoogleの出力を**直接蒸留(distill)**したものではないかと疑っている。

  • このモデルがOpenRouterに載る予定があるのか気になる。

  • OpenAIがChatGPTに広告を入れたら、人々はすぐ別のモデルに移るのではないかという疑問だ。

    • むしろ複数の提供者が、市場価格で競争する汎用モデルを出すほうが望ましいと思う。
    • 広告の有無に関係なく、OpenAIは信頼していない。名前をCloseAIに変えるまでは信じがたい。
    • ChatGPTは単なるウェブサイトだ。ウェブサイトに広告があるのは不思議なことではない。Instagramも同じだ。
    • GPUデータセンターとAPIを通じて、すでに収益構造を持っている。競争が生じても、しばらくは第一選択肢であり続けるだろう。
    • Googleも数十年にわたって広告を出してきたが、誰も他の検索エンジンへ移らなかった。