2 ポイント 投稿者 GN⁺ 2026-01-10 | 1件のコメント | WhatsAppで共有
  • エルデシュ問題 #728が最近、AIツールによってほぼ自律的に解決され、数学研究の自動化における新たなマイルストーンとなった
  • この問題はもともと Erdős, Graham, Ruzsa, Strauss が1975年に提起した 二項係数の素因数分解に関する問い で、曖昧な条件のため長らく明確に扱われてこなかった
  • ChatGPT が調整された制約条件の下で証明を生成し、Aristotle がそれを Lean 形式証明 として定式化しつつ誤りを自動修正した
  • その後、複数の参加者が ChatGPTを使って自然言語で書き直し、文献との接続や叙述構成を強化した版を反復的に改善した
  • Terence Tao はこの過程について、AIの迅速な証明作成・修正能力 が研究論文の書き方そのものを変える可能性を示していると評価した

AIが解いたエルデシュ問題 #728

  • 最近、AIツールの活用がエルデシュ問題の解決に新たな進展をもたらし、問題 #728 が ほぼ自律的にAIによって解決 された
    • 初期の試行後、フィードバックを反映して修正した版で成功した
    • 結果は既存文献で同一の形では再現されておらず、類似手法による近い結果だけが存在していた
  • この事例は、ここ数か月で AIの数学的問題解決能力が実際に向上 していることを示している
    • 過去にもAIがエルデシュ問題を解いた例はあったが、その多くは後に文献中に既に存在する解だと判明した
  • 今回の問題は、もともとのエルデシュの記述が 誤った形で提示されており、最近になってようやく意図された形に再構成された
    • そのため、既存文献に関連研究が少なかったことの説明にもなっている

問題の歴史と初期アプローチ

  • 1975年に Erdős, Graham, Ruzsa, Strauss二項係数 (2n choose n) の素因数分解を研究し、複数の関連問題を提示した
    • そのうちの一つが、a!b! | n!(a+b−n)! の条件と a+b > n + C log n を満たす無限個の a, b, n が存在するかを問う問題だった
    • ただし Cの大きさ(小さいか大きいか) など、複数の点で記述が不明確だった
  • 数か月前、AlphaProof チーム がこの問題の単純な解を見つけたが、これは意図された問題の趣旨に合わなかったため、a,b ≤ (1−ε)n という制約を追加した
    • その後のAI支援による文献検索でも、関連研究はほとんど見つからなかった

ChatGPTとAristotleの協働

  • 1月4日、ChatGPT が調整された制約条件の下で 小さい C の場合に対する証明を生成した
    • この証明は Aristotle によって Lean 形式証明 として定式化された
    • その後、原論文を再検討した結果、元の論文がすでに小さい C の場合を扱っていたことが確認された
  • 別の参加者が Lean 証明をChatGPTで自然言語に変換 し、追加の対話を通じて 改善版 を作成した
    • この版は一部の証明の空白を埋めたものの、依然として AI特有のぎこちない文体文献引用の不足 が残っていた
    • それでも 核心的なアイデアを理解できる程度には読める水準 に達していた

大規模な書き直しと改善された成果物

  • 追加のプロンプトにより、ChatGPT大きい C の場合まで拡張した証明を生成した
    • 一部に誤りはあったが、Aristotle が自動修正し、Lean で検証済みの証明 を完成させた
  • 3人目の参加者が Lean 証明を圧縮 した後、別の参加者が ChatGPTと長時間対話 しながら
    • 文献との接続や叙述構成を強化した完成度の高い論文形式 に書き直した
    • その成果物は AI生成物らしさが薄れた研究論文に近い品質 と評価された
    • Tao はこのテキストをエルデシュ問題フォーラムで検討したと述べている

AIが変える研究論文の書き方

  • Tao は、最終的な論文でもなお 核心部分は人間が書く必要がある と見ているが、
    • AIとLeanの組み合わせ証明の作成と修正の速度 を飛躍的に高めたと評価している
  • これまでは、論文一本を読みやすく仕上げるのに多くの時間がかかり、
    • 査読者フィードバックに基づく修正も 局所的な変更 にとどまることが多かった
  • しかし今では、AIのテキスト生成・修正能力形式証明ツールの検証機能 が結びつくことで、
    • さまざまな精度や叙述レベルで新しい版の論文を素早く生成 できるようになっている
  • 一つの「正式な論文」だけでなく、AIが生成した多数の補助版 が存在しうることで、
    • 多様な観点や追加的な価値 を提供できる可能性も示されている

コミュニティの反応

  • 一部のユーザーは、AIが生成した文書の追加的な価値 を「別の角度から見られる能力」だと説明した
  • 別の数学者たちは、AIの成果の独創性測定既存文献との類似性評価 の必要性を提起した
    • 例えば、Lean 形式証明の長さ比較 による定量的な類似性測定の提案があった
  • また別のコメントでは、AIはコードのリファクタリングのように論文を大域的に書き直せる ため、
    • 研究者は より高いレベルで文書構造を設計すること に集中すべきだという意見も示された
  • 一部では、AIが数学者の役割を代替する可能性 に懐疑的な反応も見られたが、
    • 他方ではこれを 協働と発想拡張の新しい機会 と評価する声もあった

1件のコメント

 
GN⁺ 2026-01-10
Hacker Newsの意見
  • 私はHarmonicで働いており、私たちが作った Aristotle についていくつか誤解を正したい
    Aristotleは最新の AI手法 を積極的に活用しており、言語モデリングも含んでいる
    英語の非形式的な証明を入力すると、その証明が正しければLeanへ翻訳される確率が高い。つまり、英語の証明が堅牢であることの強いシグナルになる
    ひとたびLeanで形式化されれば、その証明が正しいことに疑いの余地はない。これが私たちの中核的なアプローチだ — AIベースの探索で答えを見つければ、その複雑さに関係なく結果の正確性を保証できる

    • AIがLeanへ翻訳した証明が本当に問題の正しい形式化なのか、どう検証しているのか気になる。他分野では生成AIはもっともらしい をうまく作るので、この場合もそうなり得るのか知りたい
    • この技術を ソフトウェア検証 に適用しようという試みがあるのか気になる
      Rustはメモリ安全性を保証するために固定されたルール集合を使っているが、このルールは単純で制限的だ。もしAristotleのようなシステムがコンパイラに統合され、コードの 正確性の証明 が可能なら自動的に通せるようになれば本当にすごいと思う
    • 新しいLLMを使うたびに本当の進歩なのか単なる ベンチマークハック なのか迷うが、数学証明の形式化は本物の進展を示す指標だと思う
      Harmonicが人間の書いた数学の大半を形式化できるようになるまで、どれくらいかかるのか気になる。競合のChristian Szegedyは今年中に可能だと言っていたが
    • 英語の証明が正しければLeanへ翻訳される確率が高いと言っていたが、これは数学の 分野ごとの難易度 によって変わるのか気になる。まだ多くの研究分野は人間にとってさえ形式化が難しいと理解している
    • 「命題が正しく形式化されていれば」という前提はかなり大きな仮定に聞こえる。最近の Navier-Stokes事件 でも見たように、形式化そのものが容易ではない
  • Terence Taoの説明を見ると、人間が2つのAIツールの間で結果をやり取りし、AIが人間の見つけた 隙間を埋める役割 を果たしたように見える
    完全な自律的解決というよりは、人間とAIの 協業 に近い。つまり、専門家が主導しAIが補助する形だ

    • そう、実際にはAristotleとChatGPT、そして非常に優秀なユーザーが 相互作用 しながら進んだものだと理解している
    • Taoやコミュニティが直接隙間を見つけたのではなく、自動証明検証器を使ったと聞いている。むしろ AI 90% / 人間 10% くらいの比率に見える
    • Redditに執筆者の詳しい説明がある — reddit投稿
    • 人間の専門性と努力の水準を理解するには、Erdős問題フォーラムのスレッドを読むことを勧める
    • ちなみに、このサイトは数学者Thomas Bloomが作り、ChatGPTが技術的な設定を手伝った (FAQより)
  • 既存の証明を再構成したり新しいやり方で組み合わせたりする作業は、人間にとっては 退屈または複雑な過程 だが、AIはそれを超人的な速度でこなせる
    このアプローチはAGI以前の段階でも非常に大きな可能性を開くはずだ。数学者がAIを道具として使い、ミレニアム懸賞問題 のような難問に取り組む時代が来ると思う

    • 既存の証明の再構成と、完全に新しい数学を作ることの間には明確な境界はないと思う
    • 数学は論理的なので、すでにこうした探索のためのアルゴリズムは多いはずで、単純な 探索問題 には見えない
    • 私も既存証明の再構成という部分には同意する。LLMの出した結果を検証するのは依然として 退屈な作業 だが、人間が直接やるよりはましだと思う
      LLMの本当の価値は、言語で表現できるテーマに対して 新しい視点 を示すことにある
    • 私はこうした現象を「科学的リファクタリング」と呼んでいる。たとえば、ある定数を変えて論理を組み立て直してみるような実験をAIが自動で行えるようになる
    • 複雑な定理を証明できるAIがAGIでないのなら、いったい何がAGIなのかと思う
  • 実際に問題を解いた人が書いた説明文を見ると、巨大なパイプラインなしに、わずか数個のプロンプトだけで 結果を得たという点が印象的だ
    最近のモデルははるかに多くの計算資源を使うが、これはむしろ 下限レベルの成果 に見える

  • Terence Taoが「AI contributions to Erdős problems」というwikiページを作った
    GitHubページMathstodon投稿を見ると、今回の結果(問題728)はそのページ最初の 『緑色の項目』 、つまりAIが実際に解いた最初の事例だ

    • 興味深いことに、wikiのセクション6にあるAI形式化証明の大半は ここ数か月の間 に完成したものだ。今後が楽しみだ
  • 物理学や数学のような複雑な分野の専門家たちも、AIと対話しながら助けを得ているのか気になる

    • 私は純粋数学の博士号取得後、データサイエンティストとして働いている。文献レビュー や、なじみのない数学を素早く復習するときにAIが大いに役立つ
      分野別に見ると、有用性はプログラミング > 応用ML > 統計/応用数学 > 純粋数学の順で下がる
    • 私は物理学専攻ではないが、AIのおかげで必要な 公式や論文 を探す時間が大きく減った。ただし結果は常に検証しなければならない
    • ディープラーニングモデルと新しい attention構造 を研究する立場から、ChatGPTは論文検索と 関連アイデアの探索 にとても有用だ
    • 数学を趣味にしている立場では、LLMは私の試みにフィードバックをくれたり、既存の解法へ導いてくれたりする。遊びとしての数学 にはかなり楽しい道具だ
    • 代数幾何を研究しているが、文献検索以外ではまだ大きな助けにはなっていない。モデルごとの差も大きい
  • 今すぐAristotleを直接使える — https://aristotle.harmonic.fun/

    • AIをDeepMindのformal-conjecturesデータセットでテストしているのかも気になる
    • ドキュメントには「uvx aristotlelib@latest aristotle」とあるが、実際には「uvx --from aristotlelib@latest aristotle」が正しい
      また、Stanfordの個人ページへのリンクが間違っている(wwwを外す必要がある)
    • これは別のHNスレッドで扱うべきなくらい面白い。CEOなら自分で 紹介文 を投稿してみてもよさそうだ(参考リンク
  • 今回の結果は整数に関する定理で、Mathlibインフラ がよく支援している領域だ
    使われた定義も複雑ではなく、この種の証明は成功確率が高い。それでも本当に驚くべき成果だ

  • LLMを超えた 特化型AIアプローチ の可能性を示す事例だ
    Aristotleの論文は arXiv:2510.01346 にある
    Transformerアーキテクチャを使ったからといって、すべてがLLMというわけではない — 言語データで学習していなければ LLMとは呼べない

    • 多くの人が「LLM」を「GenAI」と混同して使っているので、混乱が生じているようだ
    • 「LLMではないアプローチ」と言っていたが、実際にはChatGPTが使われたのではないか?
    • その通り、実際にはChatGPTが使われていた
    • 論文を見ると、3段階すべてで 大規模TransformerベースのLLM が関与している
      1. Monte Carlo Graph Searchで方策/価値関数を担当
      2. 非形式推論システムが chain of thought を使用
      3. AlphaGeometryも ニューラル・シンボリック言語モデル を使用
        つまり、全段階がLLMベースだ
  • 2026年にはAIが数学の 未解決問題 をますます多く扱うようになる気がする
    今回の事例も完全自律ではないが、人間のフィードバック後はAIがほぼ自力で解いた水準だ
    もう「LLMは単なる確率的オウム」という議論は終わったと思う。これからは どう実用化するか が本当の議論の中心になるはずだ

    • 2026年には数学分野で 爆発的な進展 がありそうだ
    • 今回の結果は訓練データにあった類似証明の リミックス である可能性が高いが、そのリミックス能力自体が強力だ
    • それでも独立した検証は必要だ。企業の主張だけでは信頼しにくい