- GPT-5.4 Pro が Kevin Barreto と Liam Price の協力により、ハイパーグラフに関する Ramsey型問題 を解決
- 問題提案者の Will Brian が解法の正確性を検証し、全対話記録と AIの最終解説文書 が公開
- 解法は既存の下限構成の非効率を取り除き、上限の対称的構造 を提示して、Ramsey理論ではまれな整合性 を達成
- その後、FrontierMath: Open Problems フレームワークで複数モデルが同じ問題を解き、AIの数学的推論能力の検証ツール としての有効性が示された
- この成果は、AIが未解決数学問題の解決に実質的に貢献できることを示す事例 と評価される
ハイパーグラフのRamsey型問題の解決
- GPT-5.4 Pro が Kevin Barreto と Liam Price の協力により、ハイパーグラフに関する難問である Ramsey型問題 を解決
- 問題提案者の Will Brian が解法の正確性を検証
- 解決過程の全対話記録と GPT-5.4 Pro の最終解説文書が公開
- Brian は、この解法が 既存の下限構成の非効率性を除去 し、上限構成の複雑さと対称的構造 を示していると評価
- 下限と上限が整合的に一致する結果であり、Ramsey理論の問題ではまれな水準の一貫性 を達成
- 彼はこの結果を論文としてまとめる予定で、AIのアイデアから派生した追加研究も含まれる可能性がある
- その後、Epoch AI は FrontierMath: Open Problems テストフレームワークを完成させ、同じ問題を複数モデルに適用
- Opus 4.6 (max)、Gemini 3.1 Pro、GPT-5.4 (xhigh) モデルも問題解決に成功
- これは FrontierMath 環境が AIモデルの数学的推論能力評価に有効 であることを示している
問題定義
- この問題は、無限級数集合の同時収束性 の研究で現れる数列 (H(n)) の下限を改善することに焦点を当てている
- ハイパーグラフ ((V, \mathcal H)) が大きさ (n) の 分割(partition) を含むとは、
(D \subseteq V), (\mathcal P \subseteq \mathcal H) が存在し、(|D| = n) で、
(D) の各要素がちょうど1つの (\mathcal P) の要素に含まれる場合を意味する
- (H(n)) は、孤立頂点がなく、大きさ (n) を超える分割を含まないハイパーグラフの最大頂点数 (k) として定義される
- 既知の (H(n)) の下限は非最適である可能性が高く、新しいハイパーグラフ構成 によって改善可能だと考えられている
- 目標は (H(n) \ge c \cdot k_n)(ただし (c > 1))を満たすアルゴリズムを見つけること
- (k_n) は漸化式 (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor}) で定義される
問題構成の段階
-
Warm-up 段階
- 既に知られた解法が存在する (n) の値に対してハイパーグラフを構成
- 条件: (|V| ≥ 64), (|H| ≤ 20), 大きさ 20 を超える分割がないこと
-
Single Challenge 段階
- 既知の解法がない (n) の値に対して、同じ条件でハイパーグラフを見つける課題
- 条件: (|V| ≥ 66), (|H| ≤ 20), 大きさ 20 を超える分割がないこと
-
Full Problem 段階
- すべての (n) に対して機能する 一般アルゴリズム を要求
- 入力 (n) に対して (H(n) ≥ c \cdot k_n) を満たすハイパーグラフを生成しなければならない
- (n ≤ 100) のとき、一般的なノートPCで10分以内に実行可能である必要がある
数学者の評価
- この問題に精通した数学者は 約10人程度 で、専門分野の研究者が多く含まれる
- 実際に問題解決を試みた数学者は 5〜10人 程度と推定される
- 専門家が問題を解くのにかかる予想期間は 1〜3か月
- 解決できれば 専門学術誌に掲載可能な水準 と評価される
- 問題の豊かさから、解決が新たな数学研究につながる可能性が高い
- 明示された条件の下で、問題が解決可能である確率は 95〜99% と評価される
1件のコメント
Hacker Newsのコメント
多くの人が「LLMは真の創造性を持てない」と言い切るのを見ると驚く。
単に「訓練データにないから不可能だ」と言うだけでは不十分で、すでに数多くの反例がある。
それなら、なぜある新しい課題は可能で、別のものは不可能だと考えるのか、その根拠が必要だ。
もし『新しさ』が連続体の上にあると認めるなら、どこで線を引くのか、どんな証拠が出れば考えを変えるのかが気になる。
だが反論もある。数学オリンピック金メダル級のモデルを見て、1つ目の主張は捨てた。
また、RLとメモリの追加で2つ目の限界も克服できそうだ。
ひょっとすると大規模LLMは人間のように情報を内在化できるのかもしれない。
関連例: METRのブログ記事
人間は「真の新規性」をあまりに大げさに定義しすぎる。たとえば超伝導体の公式や新薬開発のようなものだ。
しかし実際には、靴ひもの新しい結び方ですら形式的には新規性だ。
LLMはこうした些細な問題を無数に解けるが、人間が感嘆するほど意味のある革新ではないかもしれない。
パフォーマンスオーバーヘッドを理由に的確に却下し、まったく別のアプローチを提示した。
ものすごく新しい問題ではないが、かなり創造的な解決策で驚いた。
プロジェクト画像
単なる暗記ではなく、ニューラルネットワーク内部の回路として一般化された演算を内在化したのだ。
AIが難しい問題を自力で解けるなら信じようと思っていたが、今回の結果が本当なら、もう信奉者になった気分だ。
もっと多くの事例を見たいが、世界は本当に新しくて面白く変わっている。
だが、コード品質のように定義が曖昧な領域ではハルシネーションが増える。
AlphaGoのように自ら学習する価値関数がないため、RLだけでは限界がある。
AIは絶えず「そこそこ良い」コンテンツを生み出すが、本当の感動は消える。
人間がやり取りしていた良いものは減り、悪いものばかりが増幅される感じだ。
ほとんどの人間もそんな問題は解けないのに、AIはすでに一般的な知識労働では卓越している。
その基準なら、それはAGIやASIに近い定義だ。
実際にどんな問題だったのか、専門家による検証が必要だ。
人間が特別だという基本前提が、いまだに強すぎると感じる。
「いろいろ試していたらたまたまできた」という説明が、人間にも当てはまる可能性をあまり考えていない。
科学的思考を重視するコミュニティでさえ、人間例外主義が深く根付いている。
AIは自分で目標を立てたり、成果を認識したりできない。
莫大なコストをかけて得られたのは、些細な数学的進展にすぎないのかもしれない。
私は機能主義者だが、LLMの「知能らしく見えるもの」が本物の知能だとは思わない。
GPT‑5.4 Proとの全対話と結果レポートが公開されている。
対話全文 / 結果要約
また、ユーザーが途中でトークン使用量を更新しながら文脈を拡張していった方法も興味深い。
Opus 4.6が約25万トークンを消費したという点から、トークン数を問題難易度の指標として想像してみる。
今日やったReactのリファクタリングは、数学の難問の半分くらいの難しさだった計算になって笑える。
ある問題は世界で5〜10人しか挑戦したことがないレベルだ。
動機不足で未完成のソフトウェアのように、数学の問題も単に挑戦者が少ないため未解決なのかもしれない。
それでもAIがこうした問題を解いたのは奇跡のような出来事だ。
コンテキストが大きくなるほどコストは増え、提供者が単価を上げる可能性もある。
AIの能力は訓練されたコスト関数(cost function) によって決まる。
結局、知能とは複雑なコスト関数を最小化する過程だ。
数学・コーディングのように自動検証が可能な分野では、RLVRのようなアプローチが急速に発展するだろう。
だが、社会的報酬や不確実性の大きい領域では進展が遅いかもしれない。
たとえば複素数の導入は、表現最適化の結果と見ることもできる。
ドメイン専門家たちが、自分の問題解決法をLLMに学習させている。
結局LLMは、彼らの思考パターンを模倣しながら問題を解くようになる。
既存の証明を再サンプリングする形で解ける問題は多いと思う。
人間なら気が狂いそうになる反復探索を、機械は粘り強く続けられる。
大きな進歩ではないが、予想を定理に変える役割は果たせる。
まったく新しい視野を開くケースはまれだ。
トークンの浪費かもしれない。
EpochのOpen Problemsページには15の問題と難易度分類がある。
今回解かれたのは「moderately interesting」段階で、最も易しい側に属する。
それでも、解かれる前から公開されていた問題だった点は印象的だ。
今後、同じ段階の残り3問もどれだけ早く解かれるのか気になる。
タイトルはやや誤解を招く。
実際のタイトルは「A Ramsey-style Problem on Hypergraphs」で、解いたのはGPT‑5.4だけではなく複数の最新モデルだった。
それでも依然として見事な成果だ。