GPT-5.4 ProがハイパーグラフのRamsey型数学難問を解決

(epoch.ai)

2 ポイント投稿者 GN⁺ 2026-03-25 | 1件のコメント | WhatsAppで共有

GPT-5.4 Pro が Kevin Barreto と Liam Price の協力により、ハイパーグラフに関する Ramsey型問題 を解決
問題提案者の Will Brian が解法の正確性を検証し、全対話記録と AIの最終解説文書 が公開
解法は既存の下限構成の非効率を取り除き、上限の対称的構造 を提示して、Ramsey理論ではまれな整合性 を達成
その後、FrontierMath: Open Problems フレームワークで複数モデルが同じ問題を解き、AIの数学的推論能力の検証ツール としての有効性が示された
この成果は、AIが未解決数学問題の解決に実質的に貢献できることを示す事例 と評価される

ハイパーグラフのRamsey型問題の解決

GPT-5.4 Pro が Kevin Barreto と Liam Price の協力により、ハイパーグラフに関する難問である Ramsey型問題 を解決
- 問題提案者の Will Brian が解法の正確性を検証
- 解決過程の全対話記録と GPT-5.4 Pro の最終解説文書が公開
Brian は、この解法が 既存の下限構成の非効率性を除去 し、上限構成の複雑さと対称的構造 を示していると評価
- 下限と上限が整合的に一致する結果であり、Ramsey理論の問題ではまれな水準の一貫性 を達成
- 彼はこの結果を論文としてまとめる予定で、AIのアイデアから派生した追加研究も含まれる可能性がある
その後、Epoch AI は FrontierMath: Open Problems テストフレームワークを完成させ、同じ問題を複数モデルに適用
- Opus 4.6 (max)、Gemini 3.1 Pro、GPT-5.4 (xhigh) モデルも問題解決に成功
- これは FrontierMath 環境が AIモデルの数学的推論能力評価に有効 であることを示している

問題定義

この問題は、無限級数集合の同時収束性 の研究で現れる数列 (H(n)) の下限を改善することに焦点を当てている
- ハイパーグラフ ((V, \mathcal H)) が大きさ (n) の 分割(partition) を含むとは、 (D \subseteq V), (\mathcal P \subseteq \mathcal H) が存在し、(|D| = n) で、 (D) の各要素がちょうど1つの (\mathcal P) の要素に含まれる場合を意味する
- (H(n)) は、孤立頂点がなく、大きさ (n) を超える分割を含まないハイパーグラフの最大頂点数 (k) として定義される
既知の (H(n)) の下限は非最適である可能性が高く、新しいハイパーグラフ構成 によって改善可能だと考えられている
- 目標は (H(n) \ge c \cdot k_n)（ただし (c > 1)）を満たすアルゴリズムを見つけること
- (k_n) は漸化式 (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor}) で定義される

問題構成の段階

Warm-up 段階
- 既に知られた解法が存在する (n) の値に対してハイパーグラフを構成
- 条件: (|V| ≥ 64), (|H| ≤ 20), 大きさ 20 を超える分割がないこと
Single Challenge 段階
- 既知の解法がない (n) の値に対して、同じ条件でハイパーグラフを見つける課題
- 条件: (|V| ≥ 66), (|H| ≤ 20), 大きさ 20 を超える分割がないこと
Full Problem 段階
- すべての (n) に対して機能する 一般アルゴリズム を要求
- 入力 (n) に対して (H(n) ≥ c \cdot k_n) を満たすハイパーグラフを生成しなければならない
- (n ≤ 100) のとき、一般的なノートPCで10分以内に実行可能である必要がある

数学者の評価

この問題に精通した数学者は 約10人程度 で、専門分野の研究者が多く含まれる
実際に問題解決を試みた数学者は 5〜10人 程度と推定される
専門家が問題を解くのにかかる予想期間は 1〜3か月
解決できれば 専門学術誌に掲載可能な水準 と評価される
問題の豊かさから、解決が新たな数学研究につながる可能性が高い
明示された条件の下で、問題が解決可能である確率は 95〜99% と評価される

1件のコメント

GN⁺ 2026-03-25

Hacker Newsのコメント

多くの人が「LLMは真の創造性を持てない」と言い切るのを見ると驚く。
単に「訓練データにないから不可能だ」と言うだけでは不十分で、すでに数多くの反例がある。
それなら、なぜある新しい課題は可能で、別のものは不可能だと考えるのか、その根拠が必要だ。
もし『新しさ』が連続体の上にあると認めるなら、どこで線を引くのか、どんな証拠が出れば考えを変えるのかが気になる。
- 自分でその問いに答えるなら、LLMの根本的限界に関する論理的主張もある。
  1. 人間のデータを学習するので、人間の限界を模倣する
  2. 経験から学ばない
    だが反論もある。数学オリンピック金メダル級のモデルを見て、1つ目の主張は捨てた。
    また、RLとメモリの追加で2つ目の限界も克服できそうだ。
    ひょっとすると大規模LLMは人間のように情報を内在化できるのかもしれない。
    関連例: METRのブログ記事
- LLMは本質的に何でも生成できる。ただし、自分が作ったものを理解していない。
  人間は「真の新規性」をあまりに大げさに定義しすぎる。たとえば超伝導体の公式や新薬開発のようなものだ。
  しかし実際には、靴ひもの新しい結び方ですら形式的には新規性だ。
  LLMはこうした些細な問題を無数に解けるが、人間が感嘆するほど意味のある革新ではないかもしれない。
- macOSでアプリのウィンドウを「透けて見える」ようにするユーティリティを作っていたのだが、Claude CodeがScreenCaptureKitを使わないよう提案してきた。
  パフォーマンスオーバーヘッドを理由に的確に却下し、まったく別のアプローチを提示した。
  ものすごく新しい問題ではないが、かなり創造的な解決策で驚いた。
  プロジェクト画像
- LLMが新しい掛け算の問題を解ける理由は、学習中に無数の掛け算の例を見て、圧縮された抽象戦略を学んだからだ。
  単なる暗記ではなく、ニューラルネットワーク内部の回路として一般化された演算を内在化したのだ。
- たいていの発明は、3つの既存アイデアの補間(interpolation) の結果だ。こうしたシステムはそれがとても得意だ。
AIが難しい問題を自力で解けるなら信じようと思っていたが、今回の結果が本当なら、もう信奉者になった気分だ。
もっと多くの事例を見たいが、世界は本当に新しくて面白く変わっている。
- 数学・コーディングの競技問題はルールが明確で検証もしやすいため、学習しやすい。
  だが、コード品質のように定義が曖昧な領域ではハルシネーションが増える。
  AlphaGoのように自ら学習する価値関数がないため、RLだけでは限界がある。
- 「新しくて面白い世界」というより、これからは終わりのない焼き直しの時代が来る気がする。
  AIは絶えず「そこそこ良い」コンテンツを生み出すが、本当の感動は消える。
  人間がやり取りしていた良いものは減り、悪いものばかりが増幅される感じだ。
- LLMはただのリミキサー(remixer) だ。過去に存在した文字列の組み合わせを予測しているだけで、完全に新しいパターンを自ら作ることはない。
- なぜ「難しい問題を解くこと」をAIの基準にするのか気になる。
  ほとんどの人間もそんな問題は解けないのに、AIはすでに一般的な知識労働では卓越している。
  その基準なら、それはAGIやASIに近い定義だ。
- 有名VCたちが、DeepSeekが電磁気学の入門レベルの問題を解いたとして「超天才モデル」だと言っていたが、誇張に思える。
  実際にどんな問題だったのか、専門家による検証が必要だ。
人間が特別だという基本前提が、いまだに強すぎると感じる。
「いろいろ試していたらたまたまできた」という説明が、人間にも当てはまる可能性をあまり考えていない。
科学的思考を重視するコミュニティでさえ、人間例外主義が深く根付いている。
- 人間はわずか20ワットで、経験なしに推論できる能力を持つ。それは明らかに特別だ。
- 今回の成果も、結局は人間が問題を作り、AIと協力して検証したからこそ意味がある。
  AIは自分で目標を立てたり、成果を認識したりできない。
  莫大なコストをかけて得られたのは、些細な数学的進展にすぎないのかもしれない。
- 人間が特別だというのは単なる信念ではなく、神経科学・認知科学が扱う実証的事実だ。
  私は機能主義者だが、LLMの「知能らしく見えるもの」が本物の知能だとは思わない。
- 人間の独自性を理解するには、Orchestrated Objective Reduction理論が参考になる。
- 人間が特別だということではなく、統計モデルは枠を外れた思考をほとんどできないという意味だ。
GPT‑5.4 Proとの全対話と結果レポートが公開されている。
対話全文 / 結果要約
- 提供されたsolution templateファイルの実際の内容が気になる。
  また、ユーザーが途中でトークン使用量を更新しながら文脈を拡張していった方法も興味深い。
Opus 4.6が約25万トークンを消費したという点から、トークン数を問題難易度の指標として想像してみる。
今日やったReactのリファクタリングは、数学の難問の半分くらいの難しさだった計算になって笑える。
- 冗談のようだが、数学は本質的に非常に閉じた分野なので、実際そうかもしれない。
  ある問題は世界で5〜10人しか挑戦したことがないレベルだ。
  動機不足で未完成のソフトウェアのように、数学の問題も単に挑戦者が少ないため未解決なのかもしれない。
  それでもAIがこうした問題を解いたのは奇跡のような出来事だ。
- コンテキスト管理が重要だ。トークンの浪費は性能低下につながる。
  コンテキストが大きくなるほどコストは増え、提供者が単価を上げる可能性もある。
- Opus 4.6とGPT‑5.4 Proの出力を比較すると、前者はより多様な検証の試みと思考の流れを見せていて興味深かった。
- 数学では変数1つにトークン1つだが、ソフトウェアは可読性のためにはるかに多くのトークンを使う。
- トークン数は複雑さの指標ではない。データ中心の問題は、単純な思考型の問題よりはるかに多くのトークンを消費する。
AIの能力は訓練されたコスト関数(cost function) によって決まる。
結局、知能とは複雑なコスト関数を最小化する過程だ。
数学・コーディングのように自動検証が可能な分野では、RLVRのようなアプローチが急速に発展するだろう。
だが、社会的報酬や不確実性の大きい領域では進展が遅いかもしれない。
- 「コスト関数で表現できない問題もある」という反論がある。
  たとえば複素数の導入は、表現最適化の結果と見ることもできる。
ドメイン専門家たちが、自分の問題解決法をLLMに学習させている。
結局LLMは、彼らの思考パターンを模倣しながら問題を解くようになる。
既存の証明を再サンプリングする形で解ける問題は多いと思う。
人間なら気が狂いそうになる反復探索を、機械は粘り強く続けられる。
大きな進歩ではないが、予想を定理に変える役割は果たせる。
- 問題は、その証明が意味のあるものかどうかだ。大半は既存パラダイム内での反復にすぎない可能性が高い。
  まったく新しい視野を開くケースはまれだ。
  トークンの浪費かもしれない。
- あらゆる発見は組み合わせ的合成の結果だと思う。完全な無から生まれるものはほとんどない。
- だとすれば、『真の新規性』を評価するベンチマーク設計はどうすべきなのか気になる。
EpochのOpen Problemsページには15の問題と難易度分類がある。
今回解かれたのは「moderately interesting」段階で、最も易しい側に属する。
それでも、解かれる前から公開されていた問題だった点は印象的だ。
今後、同じ段階の残り3問もどれだけ早く解かれるのか気になる。
- どんな難問であれ、LLMが解くというだけで、すでにSF級の出来事だと思う。
タイトルはやや誤解を招く。
実際のタイトルは「A Ramsey-style Problem on Hypergraphs」で、解いたのはGPT‑5.4だけではなく複数の最新モデルだった。
それでも依然として見事な成果だ。

GPT-5.4 ProがハイパーグラフのRamsey型数学難問を解決

ハイパーグラフのRamsey型問題の解決

問題定義

問題構成の段階

Warm-up 段階

Single Challenge 段階

Full Problem 段階

数学者の評価

関連記事

1件のコメント

Hacker Newsのコメント