- Erdős #281 は、無限に多くの合同式をどのように選んでも、そのどの合同式にも当てはまらない整数がほとんど残らない状況を前提とした問題
- この状況が真であるなら、実際には無限個の合同式をすべて使わなくても、最初のいくつかだけでほとんどすべての整数をふるい落とせると言えるのか、という問い
- Neel Somani が GPT-5.2 Pro を用いてこの問いに対する解法を提示し、複数の数学者が論理の中核となる段階を中心に検証と補強を進めた
- 個々の整数を直接計算する代わりに、整数全体を一つの空間とみなし、密度と極限の性質を使って問題を扱うアプローチ
- 同じ結論が過去に知られていた定理の組み合わせからも導けることが明らかになり、このつながりが長年見過ごされてきた理由についての議論も続いている
Erdős Problem #281 — 議論の核心となる定理
- Erdős #281 は、無限に多くの合同式が与えられたとき、それらの合同式をどのように選んでも、結局ほとんどすべての整数がそのうちのいずれかに含まれる状況を前提とした問題
- すべての合同式を適用すると、どの合同式にも属さない整数がほとんど残らないという性質がすでに分かっている、という設定
- この性質が成り立つなら、実際には無限に多くの合同式を最後まで使わなくても、最初のいくつかだけでほぼ同じ効果が現れるのかという疑問
- 無限段階で成り立つ結果が有限段階でも自動的に保証されるのか、という問いの構造
- 最悪の剰余類の選択を常に許す条件のもとで、有限個の合同式だけで十分だと言えるのかという難しさがある
Neel Somani と GPT-5.2 Pro の解法アプローチ
- 個々の整数を一つずつ調べるのではなく、整数全体を一つの空間とみなし、密度の概念で問題を扱うアプローチ
- 最初の k 個の合同式を避ける整数の集合を一つの対象として設定する方法
- k が大きくなるにつれてこの集合が徐々に小さくなり、無限段階での結果へ収束する構造を利用
- 無限に多くの合同式をすべて避ける整数がほとんど存在しないという仮定から、有限段階でも十分に小さくならざるを得ないという論理展開
- 極限、平均、移動の性質を用いて全体の流れを組み立てている
検証過程と議論の展開
- 提示された解法では、極限を取る順序と平均を扱う過程の正当性が重点的に検討された
- 一部の段階では追加説明と補強が必要だという指摘が出た
- 複数の数学者が公開の場で論理を点検し、各段階の意味を明確にしていく過程が進んだ
- 結果として、論証の中核構造は保たれたまま、より明確な形へと整えられた
古典定理とのつながり
- 同じ結論が、過去に知られていた定理を組み合わせることでも導けると確認された
- 無限に多くの条件における密度収束を扱う結果と、有限条件での最悪ケースを説明する定理との結合
- このつながりによって、無限段階の性質が有限段階にも強く反映される構造が明らかになった
- なぜこの結び付きが長年明確に整理されてこなかったのか、という議論も広がっている
なぜこの事例が注目されるのか
- 以前に提示された問題が、AI ベースの解法提案をきっかけに再び大きな注目を集めた事例
- AI が完成された答えを単独で示したというより、新しい視点で議論を促した
- 問題をどのような言語と枠組みに移して考えるかによって、難しさが大きく変わることが確認された
1件のコメント
Hacker Newsのコメント
そのため、LLMが作った証明は Terence Tao のウィキのセクション2に移された
関連する議論はerdosproblems フォーラムの投稿にある
さらに奇妙なのは、その証明が Erdős 本人の論文にあったのに、彼が未解決問題として残していた点だ
すでに解法があったのに誰も知らなかったのは、人々が気にしていなかったからだ
単に古い文献を検索して「新しい進展」と呼ぶのは 見かけだけの進歩 かもしれない
純粋数学の多くは結局 知的パズル遊び のようにも感じられる
Tao のウィキ説明によれば、
Erdos 問題は難易度が非常に幅広く、一部は AIが解くのに向いた低難度問題 に分類される
易しい問題でも「最高の数学者でもすぐには解けない」程度であり、AI の性能指標に適している
AI が進歩するにつれ、より難しい問題へと 難易度のはしごを上っていく だろう
その証明が Erdos 本人の論文にあったことすら知らなかった
それなのに Fediverse や Twitter では LLM のブレークスルー だと騒がれている
LLM が 極限交換や量化子処理の誤りを避けた点 が印象的だったという
前世代のモデルならこうした部分でミスしていただろうとして、
この結果をウィキの セクション1に掲載した と述べている
同じ結果がすでに証明されていた
Tao は「新しい証明は既存のものと異なるが、セクション2に移す」とコメントした
最新モデルは「100% 完璧なコード」と自信満々に言うが、実際には クラッシュ する
z.ai の支払いを試したときもエラーが出て、購入すらできなかった
LLM は驚くべき技術だが、同時に 過大評価された技術 でもある
ログや実行結果のような実証が必要だ
モデルはテキストを生成するだけで、それを検証するのはアプリの役割だ
しかし完全なテキスト生成は現在 不可能 だ
LLM が自信満々に間違った答えを出す例をたくさん見てきたからだ
OpenAI の メモリポリシーとモデルアクセス制限 も興味深い話題だ
今回の件は ChatGPT 5.2 が1時間で答えを出したというものだが、
それが再現可能なのか、なぜそんな解法を出したのか、何を証明したのか が不明瞭だ
Tao の検証は信頼感を与えるが、結局「モデルが純粋数学により適するよう訓練されたのか?」という疑問は残る
前の事例とChatGPT セッションリンクを参照
関連リンク
その後 Lean のような形式証明システムで検証する一連の試みの一つだ
Tao はまず証明の正確さを見て、その次に 文献検索 で新規性を確認する
現時点では完全に新しい証明はほとんどないが、新しいアプローチ は現れつつある
今回の事例も最初は新しい証明のように見えたが、結局 Erdos がすでに知っていた結果 だった
2つの証明を Opus に入れてみたところ、同等だと確認した という
細部の検証が不十分なら証明全体が崩れる という指摘が出た
例として (U_k) 集合を挙げ、反例の可能性に言及している
関連する議論はこのコメントを参照
ChatGPT や Gemini Pro より 数学的正確性が低い
もしかすると一部の専門数学者が AI を使っていても明かしていない のではないかという疑問が湧く
スポーツにおける ドーピング競争 のように、追いつくために皆が使うようになるだろう
しかも AI の利用は ルール違反でもない
LLM が まだ実質的な進展 を生み出せていない可能性が高い
個人的には 謝辞の一文 くらいが適切だと思う
数学のポスドクとして GPT 5.2 を使ってみると、嘘が少なく、失敗時には正直 だ
一方で Gemini 3 は、間違えると 架空の定理をでっち上げる傾向 がある
それとも本当に 独創的な研究成果 なのかが気になる
Erdos 問題には難易度のばらつきが大きく、AI が解きやすい低難度の問題群 が存在する
Erdos リストに載った問題なら、少なくとも誰かが 一度くらいは試した可能性 がある