ChatGPT 5.5 Proを最近使ってみた経験

(gowers.wordpress.com)

2 ポイント投稿者 GN⁺ 3 시간 전 | 1件のコメント | WhatsAppで共有

Tim GowersはChatGPT 5.5 Proによって約1時間で組合せ論の博士課程レベルの研究成果を得ており、自身の数学的な入力は事実上なかったと見ている
ChatGPT 5.5 ProはMel Nathansonの加法的整数論の問題で、与えられた和集合の大きさをもつ集合の直径について、最良であるほかない二次上界の構成を17分5秒で提示した
続いて制限和集合問題も同じ方法で解き、Isaac Rajagopalの既存の指数的上界を多項式依存性へと改善する論証まで作り、Rajagopalにはほぼ確実に正しい結果に見えた
核心的なアイデアは、Rajagopalの構成における等比数列的な構成要素をh-dissociated集合ベースの構成に置き換え、必要な和集合サイズのパターンを多項式サイズの区間内で再現することだった
AIが作った結果は出版可能な水準に見えるが、ジャーナル掲載やarXiv登録よりも、人間の数学者が正確性を認証する別個のリポジトリが必要かもしれず、初学研究者の訓練基準もLLMと協働してLLM単独ではできないことを証明する方向へ移る可能性がある

LLMが変える組合せ論の問題解法

大規模言語モデルはすでに研究レベルの問題を解ける段階にあるようで、Thomas BloomのErdős問題サイトに掲載された複数の問題も解いたとされている
初期のLLMの成果は、文献中の既存の答えを見つけたり、既知の結果から容易に導ける結論を出したりする場合が多かったが、今では人間が見落としていた簡単な論証をLLMが見つける可能性が大きくなっている
人間の数学でも既存の知識と証明技法を組み合わせる作業がかなりの部分を占めるため、LLMは「既存知識を組み合わせているだけだ」という慰めは限定的である
組合せ論では、新しい組合せ的パラメータを導入した論文が自然に複数の問題を生み、以前は初学研究者にとって良い公開問題の供給源だったが、今ではLLMが解けないほど難しいかどうかが新たな基準になっている

Nathanson問題と最初の成果

GowersはMel Nathansonの論文 Diversity, Equity and Inclusion for Problems in Additive Number Theory に出てくる問題をChatGPT 5.5 Proに試させた
Nathansonは後に流行することになる問題や定理に早くから関心を示しており、その結果として時宜を得た影響力のある教科書を書いた人物として紹介されている
核心的な対象は整数集合の和集合(sumset)、それを複数回足した和集合、与えられた要素数で可能な和集合サイズである
要素数が与えられたとき、可能な和集合サイズが最小値と最大値の間のすべての値を常に取るわけではなく、完全な記述もまだ存在しない
Nathansonは、与えられた要素数と和集合サイズをもつ集合を作るときに必要な直径(diameter) の上界を提示し、この上界を改善できるかどうかを問うた
ChatGPT 5.5 Proは17分5秒考えた後、最良であるほかない二次上界を与える構成を提示した
Gowersが一般的な数学プレプリントのスタイルのLaTeXファイルに書き直すよう求めると、ChatGPTは2分23秒後にその形式を提示し、Gowersは論証が正しいかどうかを確認するのに時間を使った

Sidon集合と制限和集合への拡張

Nathansonの論証とChatGPTの論証はどちらも、与えられた大きさの集合と与えられた大きさの和集合を作るためにSidon集合と等差数列を併用するというアイデアに基づいている
Sidon集合はここでは、和集合サイズが最大となる集合という単純化した意味で使われている
細かな調整のために、等差数列の近くに追加の点を1つ加えることができ、複数のパラメータを調整すれば望みの大きさの集合を得られる
Nathansonはこの論文のTheorem 5で帰納的論証を提示したが、書き下すと実質的には2の冪からなるSidon集合を使う構造に見える
ChatGPTの改善はより効率的なSidon集合を使ったことから生まれ、二次直径をもつSidon集合を見つけられることはよく知られている
Gowersは続いて、和集合サイズではなく制限和集合(restricted sumset) の大きさを見る近縁の問題も試させ、ChatGPTは特に苦もなく同じタイプの結果を出した
2つの結果を重複なく1つのノートにまとめた文書はこちらで公開されている

一般次数問題とRajagopal論文の改善

Gowersは、より一般的な場合についてChatGPTが何をできるかも尋ねた
もともとははるかに悲観的だったが、先の証明がErdősとSzemerédiの結果、すなわち作るべきサイズを正確に知っているという事実に本質的に依存していたためである
Nathansonの論文にはMITの学生Isaac Rajagopalの論文が登場し、Rajagopalは各固定次数について指数的依存性を証明していた
Rajagopalにとっての実際の難点は、「可能なサイズの集合が分からない」ことではなかった
- 彼の論証は十分大きい場合について完全な記述を与えている
- 固定次数に対して多項式依存性を示すには、十分大きい場合だけを仮定すればよい
- 実際の難点は、与えられた和集合サイズをもつ集合を作る構成がはるかに複雑で、次数が大きくなるほど多項式の次数も上がって、より多くのパラメータが必要になることにある
ChatGPTの課題は、問題を最初から解くことではなく、Rajagopalの論証を引き締めることだった
進行過程は次の通りである
- 16分41秒後、既存の上界を指数関数から、任意の正の定数に対してより小さい指数形へ改善する論証を提示した
- プレプリント形式に書き起こすのにさらに47分39秒かかった
- GowersはこれをNathansonに送り、NathansonはRajagopalに転送し、Rajagopalには正しく見えた
- ChatGPTとRajagopalはいずれも、多項式上界へさらに押し進めるには何が必要かについていくつか推測し、GowersはChatGPTにそれを試させた
- 13分33秒後、ChatGPTはそのような論証が存在する可能性について楽観的だが、確認すべき技術的命題がいくつかあると答えた
- 確認を求めると、9分12秒後に検証を終え、再びプレプリント形式での執筆を求められた
- 31分40秒後にプレプリントが完成し、文書はこちらで公開された
- Rajagopalはこれをほぼ確実に正しいと見ており、それは行単位だけでなくアイデアのレベルでもそうだと受け取られている

AIが作った数学成果をどこに置くべきか

人間が作った結果であれば出版可能だった水準なので、これをAI slopと呼ぶのは不適切に見える
一方で、ジャーナルに載せることにはあまり意味がないように見える
- 結果は無料で公開できる
- 誰も「功績」を必要としていない
- ただし、ChatGPTが構築できる枠組みを作ったRajagopalには大きな功績がある
arXivはAI作成コンテンツを受け付けない方針を持っていると理解されており、それは合理的だと考えられる
AIが作った結果を置く別個のリポジトリが必要かもしれない
- 人間の数学者が正確性を認証した結果だけを含める調整手続きが望ましいかもしれない
- さらに良いのは、証明支援系で形式化された結果であることだろう
- 人間が書いた論文で提起された問いに答える結果かどうかも基準になりうる
調整手続きが膨大な作業量を生むのは困るし、その作業を再びAIに担わせる方向には明白な危険がある
当面、その結果は公開リンクでアクセス可能であり、LLMの文献検索能力が向上したため、Nathansonの問題が解決されたかを探す人にも発見されるかもしれない

Isaac Rajagopalの評価と技術的背景

ChatGPTが寄与した核心
- ChatGPTは数回のプロンプトだけで、ある特定の上界を指数依存から多項式依存へと改善した
- 最初の改善はRajagopalの作業を比較的日常的に修正したものだったが、多項式への改善はかなり印象的だった
- ChatGPTが出したアイデアは独創的で巧妙であり、Rajagopalが1〜2週間考え抜いた末に思いついていたなら誇りに思ったであろう種類のものだった
- ChatGPTはRajagopal自身の証明と似た方法を使い、1時間もかからずにアイデアを見つけて証明した
問題の背景
- この上界問題は、RajagopalがDuluth REU（Research Experience for Undergrads）プログラムで扱っていた問題と密接に関係している
- 中心となる対象は、取りうる複数回和集合サイズの集合と、それを特定の要素数を持つ整数集合で全て実現するための最小範囲である
- Rajagopalは昨夏、十分大きい場合に取りうる値の集合を明示的に特徴付けた
- 不可能だと排除できなかったすべてのサイズを実現する集合を構成し、それにより当該上界はその構成を最適化することで得られる
幾何級数的サイズ構成の代替
- Rajagopalの元の構成は、解析しやすい複数の小さな構成要素集合を組み合わせる方式である
- 一部の構成要素は複数の値のパラメータに対する幾何級数列の形をしており、その要素はパラメータに対して指数的に大きくなっていた
- RajagopalはTimを通じてChatGPTに、この幾何級数列と似た和集合サイズを持ちながら、要素サイズは多項式に抑えられる集合があるかと尋ねた
- ChatGPTは「多項式区間の中に幾何級数列の半分を押し込んだ」かのように振る舞う集合を構成した
- これは直感に反する構成に見える

Bₕ 集合、dissociated集合、ChatGPTの構成アイデア

Bₕ 集合の役割
- 与えられた次数について、一方の和が他方の和の並べ替えになっている自明な解を除けば和の関係が存在しない集合を Bₕ 集合 と呼ぶ
- サイズが固定されたBₕ 集合では、重複を許して要素を選ぶ方法と複数回和集合の要素が正確に対応する
- “stars and bars” で数えると、これは同じサイズの集合の中で取りうる最大の複数回和集合サイズになる
- Sidon集合はこの観点ではB₂ 集合である
幾何級数列が再現していた性質
- ある特定の幾何級数列集合はBₕ 集合ではあるが、より高い次数のB集合ではない
- 邪魔になる関係は、一定の形の和の関係として現れる
- ある集合では和集合サイズがパラメータの 線形関数 になり、別の集合では 二次関数 になる
- ChatGPTは、この4つの性質を満たしつつ、要素がすべてパラメータに対して多項式サイズである新しい集合を見つけた
h-dissociated集合の利用
- ChatGPTの構成は h-dissociated集合 を用いている
- h-dissociated集合とは、制限された次数以下の和の関係において自明な解しか許さない集合である
- サイズがおおよそパラメータに等しく、直径が多項式であるh-dissociated集合を作ることができる
- この種の構成は有限体を用いるSinger（1938）とBose–Chowla（1963）の構成にさかのぼり、Appendix 1で説明されている
関係の数を半分だけ含めるという直観
- ChatGPTが作った2つの集合は、幾何級数列の対応物と比べて、特定の和の関係を半分程度しか含まない
- 同時にh-dissociated性のおかげで、他の低次数の関係はほとんど存在しない
- その結果、多項式区間の中にありながら、必要な和集合サイズのパターンを再現する
- Rajagopalにとって、h-dissociated集合で次数以下の関係を制御するChatGPTのアイデアは非常に巧妙で、完全に独創的に見えた

ChatGPTの証明とRajagopalの証明の対応

ChatGPTの証明は、Rajagopalの元の証明における幾何級数列の構成要素を、ChatGPTの新しい構成要素に置き換えた形と非常によく似ている
最終構成は、複数の次数の値に対する新しい集合を組み合わせ、さらに等差数列と1点の和集合からなる別の集合を組み合わせる
直観的には、新しい集合は大きな和集合を作り、等差数列は小さな和集合を作るため、それらを組み合わせれば中間サイズの和集合をすべて得られそうに見える
実際の証明はかなり複雑で、Rajagopalの論文のSection 4と、ChatGPTプレプリント全体を占めている
比較のために言えば、その正の下限は少なくとも特定次数のべき乗レベルであることは容易に分かるが、実際の値は分かっていない
Rajagopalは、TimがChatGPT 5.5 Proに入力した問題が偶然にも自分のarXiv論文につながったことに驚いたと述べている

数学研究と博士課程訓練への意味

ChatGPTが2時間以内に見つけた結果は、組合せ論の博士論文の十分に妥当な1章に相当する水準だと評価されている
Isaacのアイデアに大きく依拠しているため驚天動地の結果ではないが、そのアイデアの非自明な拡張だった
博士課程の学生が同じ拡張を見つけようとすれば、Rajagopalの論文を消化し、最適でないかもしれない点を見つけ、使われている複数の代数的手法に慣れるまでにかなりの時間を要したはずである
初学者の博士課程学生に比較的取り組みやすい公開問題を与えるという形の研究訓練は、今後より難しくなるかもしれない
LLMが「取り組みやすい問題」を解けるなら、数学に貢献するための下限は「まだ誰も証明しておらず、誰かが面白いと思う結果」ではなく、「LLMが証明できない結果」へと移る
初学者でもLLMを使えるのだから、実際の課題は、LLMが単独ではできないことを LLMと協働して 証明することかもしれない
Gowersは最近LLMとの複数の協働を行っており、まだゲームチェンジャー級のアイデアではないとしても、有用な貢献は得られたと見ている

分野ごとの差異と今後の変化

この変化が他の数学分野にもどれほど一般化するかは定かではない
組合せ論は問題中心的な傾向が強い
- 問いから出発して逆向きに推論するか、前向きに推論する場合でもその問いを強く意識する
他の分野では、アイデアの範囲から出発してそれがどこにつながるかを見る 前向き推論 のほうが重要かもしれない
そうした分野では、興味深い観察とそうでない観察を見分ける能力が必要であり、LLMがそれをどこまでうまくできるかははっきりしない
現在のLLM評価は、数か月以内に古くなる可能性が高いほど発展の速度が速い
数学研究のやり方、とりわけ新しい研究者を導入するやり方は、大きく攪乱される可能性が高い
来年度に博士課程を始める人は、早くても2029年に修了することになり、その頃には数学研究の意味が今とは見分けがつかないほど変わっているかもしれない

数学をする理由の変化

数学研究を引き続き進路にすることに意味があるのかと問うメールをしばしば受け取ると述べている
数学の問題と格闘することには今なお大きな価値があるが、特定の定理や定義に自分の名前が永遠に結びつく喜びの時代は終わりに近いかもしれない
数学をする目的が一種の不滅性にあるなら、それが今後長くは可能でないかもしれないことを理解すべきだ
思考実験として、ある数学者がLLMと長い対話を行い、有用な案内役を果たしたものの、技術的作業と核心的アイデアをすべてLLMが担って大きな問題を解いたとしたら、それをその数学者の重大な業績と見なすべきかは疑わしい
すでに答えが知られている問題を解くことにも満足はありうるが、人生の数年を費やす十分な理由としては弱い
より良い理由は、難しい問題を解きながら、自分の専門分野における問題解決の過程そのものへの洞察を得ることにある
難しい問題を自力で解いた経験のある人は、AIの助けを借りて問題を解くことにも、より優れている可能性が高い
- 優れたコーダーがそうでない人よりバイブコーディングをうまくこなせるのと似ている
- 基本的な算術をよく理解している人が電卓をよりうまく使え、とくに答えがおかしいときにそれに気づきやすいのと似ている
数学は転移可能性の高い技能であり、これは研究レベルの数学にも当てはまる
数学研究を通じて以前の世代と同じ報酬は得られないかもしれないが、これから来る世界に非常によく備えられる可能性がある

付録の技術的内容

付録 1: h-dissociated 集合の構成
- 目標は、直径がおおむね多項式程度である h-dissociated 集合 を作ること
- この構成は Bose–Chowla（1963）の構成にごく小さな修正を加えたもので、Rajagopal はこの論文から学んだと述べている
- ChatGPT プレプリントの Lemma 3.1 は、moment curve を使う別の、より非効率な構成を用いている
- 構成では、素数、有限体、有限体拡大の生成元、各要素を特定の冪表現に対応づける方法を用いる
- 制限された次数以下の加法関係を、生成元の冪の関係として見直すことができる
- 拡大次数と生成元の性質により、低次数の非零多項式を満たさないため、両辺の多項式は同一でなければならない
- したがって、その加法関係は自明な関係しかなく、集合は h-dissociated になる
- 必要であればいくつかの要素を取り除いて、望む大きさまで縮小できる
付録 2: ChatGPT 構成の詳細構造
- 固定定数を選び、ChatGPT が作成した 2 つの集合を用いる
- 望む大きさを達成する集合構成は、4 種類の構成要素を組み合わせる
  - 2 つのパラメータを選ぶ 1 種類
  - 各次数の値ごとに 2 つのパラメータを選ぶ 2 種類
  - 全要素数が合うようにする集合
- この構成が複雑な理由の 1 つは、十分に多くの異なる集合を作る必要があるためである
- そのために、ある領域のパラメータ群と別の領域のパラメータ群を同時に変化させる
- パラメータのうち 1 つを取り除き、残りをそのままにすると、必要な数だけ多くの集合を作れなくなる
- 次数 2 の Nathanson の構成は、Sidon 集合、等差数列、追加の 1 値を組み合わせ、等差数列の大きさと追加値を一定範囲で変えて必要な集合を作る、より単純な構造である
- 付録 1 の構成により、各次数ごとに多項式直径を持つ h-dissociated 集合を得ることができる
- 複数の構成要素を組み合わせる際には、基底ベクトルを持つ格子状の構造を用いる
- この構成は Rajagopal の Lemma 4.9 と同様に、生成関数の乗法恒等式を保証する
- ChatGPT プレプリントの標準 Lemma 2.3 に従えば、この構成は一定次数の Freiman 同型を通じて整数区間の部分集合へ移すことができる
- 十分に大きい場合については、全体の構成が機能する
付録 3: Rajagopal 論文と ChatGPT プレプリントの対応
- Rajagopal 論文の Section 4.2 は、より単純な構成を用いて特定の値を達成する集合を作る
- これらの集合は、多項式サイズの要素しか持たない区間の部分集合であり、この事実は ChatGPT プレプリントの Section 5 で観察されている
- Rajagopal 論文の Section 4.3 は、複数の構成要素を組み合わせる中核的な構成を行っており、ChatGPT プレプリントの Sections 2, 3, 4, 6 に対応する
- Rajagopal 論文の Section 4.3.1 は、可動部分の多いその箇所の概要を提供する
- Rajagopal 論文の Section 4.3.2 は、構成要素の結合方法を説明しており、Rajagopal はこれを disjoint union と呼んでいる
- 生成関数を帳簿整理の道具として導入し、集合の和集合の大きさを追跡しており、これは ChatGPT プレプリントの Section 2 と Section 4 に対応する
- Rajagopal 論文の Section 4.3.3 は、各構成要素集合の生成関数を計算しており、Lemma 4.15 と Lemma 4.17 を含む
- これは ChatGPT プレプリントの Section 3 と Section 6.1 に対応し、ChatGPT プレプリントでは一方の生成関数が Lemma 3.3 で、もう一方の生成関数が Lemma 3.4 で計算されている
- 生成関数を計算した後の残りの証明は、Rajagopal 論文と ChatGPT プレプリントでほぼ同一である
- Rajagopal 論文の Section 4.3.4 は、構成した集合を変化させたときに和集合の大きさの値が取りうるすべての値を取ることを示している
- 核心は、可能な値の集合が 1 つの区間を成し、特定の基準値より小さい数とその値自身をすべて含むという点である

1件のコメント

GN⁺ 3 시간 전

Hacker Newsのコメント

5.5 Proを少し使ってみた体験と一致する。初めて、退屈だが明確な問題をきちんと解かせる方向に追い込めるLLMだと感じた
依然としてミスは多く、かなり厳密に誘導する必要はあるが、他のモデルと違って、自分の推論をたどりながら自己修正する能力がかなり高い
欠点はコスト。トークンを狂ったように消費し、トークン単価も高く、大きな問題を高精度で解かせるためにサブエージェントのフローを使うとさらに高くつく
大規模な問題では、コンテキスト制限のためにずっと遅くなることもある。各部分ごとにコンテキストを再度探し直す必要があり、精度のために次の小さな部分へ進む前にコンテキストを消すか、さらに多くのエージェントを立ち上げなければならない
数学の証明のように、問題と証明の理解に必要な追加コンテキストが小さく、しかも「重要な」問題なら悪くないかもしれないが、大規模コードベースのコード正確性チェックや微妙な仮定の検証には明確な限界がある
だから、5.5 Proを無制限に使える幸運な人でない限り、こうしたモデルの印象的な能力がプログラマーの日常に染み込むには少し時間がかかりそうだ
長文で、技術的な数学の話と哲学的な話が混ざっているが、特に印象的だったのは博士課程初期の訓練がより難しくなったという点
以前なら比較的やさしい研究問題を与えてスタートさせることができたが、LLMがそうした「やさしい問題」を解けるなら、その選択肢はもはやない
数学に貢献するための下限が、「まだ誰も証明しておらず興味深いこと」ではなく、「LLMが証明できないこと」になる
ただし訓練は依然として基礎から始める必要がある。誰もが小さな整数の足し算から学び、計算機はずっと前からそれをミスなくこなしていた
文章の他の部分と同じく、難しい問題を自力で解いてこそ、問題解決の過程そのものへの洞察が得られ、すでに難問を解いた経験のある人ほどAIをうまく使える可能性が高い
コーディングは人が金を稼ぐために使うものを作る仕事なので、AIでより速く納品して雇用され続けることはできるが、数学でも同じように見られるかはよく分からない
LLMが主要なアイデアと技術的作業をすべて担い、数学者は有用に導いただけだとしたら、それを数学者の大きな業績と見なすべきかは疑わしい
- 難しい問題を自力で解くと、他の問題もよりうまく解けるようになるだけでなく、その問題自体をはるかに深く理解できる
  企業でも、人がLLMに仕事を任せると結果はいつも悪いわけではなく、時には受け入れ可能だが、それはその人自身の仕事ではない
  そのため、書き手は他人よりその仕事をよく知ることも理解することもできず、所有も説明もできない。文字通りの通過点にすぎず、価値が消えてしまう
- むしろそれも大きな業績と見なすべきなのかもしれない
- 核心を少し取り逃がしている気がする。基礎から学ぶべきなのはその通りだが、ある時点、たとえば博士課程を始める段階では、基礎学習ではなく研究をすべきだ
  LLMが「やさしい研究」を片づけてしまうなら、そのプロセスはもっと難しくなる
  子ライオンは他の子ライオンと戦ったり遊んだりしながら後の狩りを学ぶが、突然TikTokができてもう遊ばなくなったら、最初の狩りはずっと難しくなるだろう
  AIでより速く納品して金を稼げるのも本当だが、それは良いコーダーになる問題とは別。良いコーダーになれなければ、ずっとダメなバイブコーダーのままだ
- 本当にそれは重要なのか？そして哲学的に見て、以前のコンピュータ支援証明とそんなに違うのか？
Baezの興味深い点は、思考や深いアイデアの価値はどこから来るのかという問いだ
その価値が主に希少性、つまりあるアイデアを持つことの難しさから来るなら、アイデア生成が自動化されたとき価値は急落しうる
しかし価値がアイデアの有用性、つまりそのアイデアがもたらす利益から来るなら話は違う。より良いアイデアをより多く生み出すことは、むしろ望ましいかもしれない
数学者は希少性の経済から豊富さの経済への移行に適応しなければならないのかもしれない
https://gowers.wordpress.com/2026/05/08/a-recent-experience-...
- 数学者には3つのタイプがある。第一は純粋な問題解決者で、代表はTao。この人たちの通貨は興味深い問題とその解法だ
  第二は純粋な理論構築者で、代表はConway。定理より理論やアイデアに関心があり、数学の領土を広げようとする
  第三は応用数学者で、数学を目的のための手段と見なし、数学の外にある問題を数学で解きたい人たちだ
  第一の問題解決者がAIから最も直接的な脅威を受けているように見える。ただし、今のところAIは新しい予想を見つけるより問題解決のほうが得意だ
  第二の理論構築者が脅かされるのはもっと先の未来だ。これまでのところAIが新しく興味深い数学的アイデアを出す能力は限られており、それをどう訓練すべきかも誰も分かっていない
  第三のタイプはAIから最も大きな恩恵を受けうる。AIが数学的な問いに答えてくれれば、数学に費やす時間を減らし、数学で解きたかった外部の問題により集中できる
- 新しいものを強く推すのは、いつも同じオンライン評論家たちのように見える。優れた学者であっても同じだ
  一方でWilesとPerelmanはオンラインから距離を置き、本物の問題を解いた
物理学の教授として、Geminiを論文チェックによく使っているが、強力なツールだ
数日間見つけられなかった複素数式の虚数単位の欠落のような事務的ミスを見つけてくれたし、見落としていた概念とアイデアのつながりを指摘してくれることも多い
ただし概念的な誤りもしばしばあり、その分野をよく知っているので気づける。たとえば3次元Clifford代数で、双ベクトルの指数と擬スカラーの指数を何度も取り違える
ChatGPT 5.5 Proが出版可能な論文を作れることは分かるが、これまでGeminiを見てきた限り、LLMは論文や本を一瞬で読む非常に効率的な学生と見なしつつも、依然として多くの指導を必要とする存在だと考えるほうがよい
- 上の経験は、GPT-5.5 Proにより近いDeep Thinkモードではなく、「通常の」Gemini 3.1 Proを使ったものに見える。通常の3.1 Proは一段劣り、ミスも多い傾向がある
  しかも3〜4年前までは高校数学すら安定して解けなかったLLMの進歩が、すぐに止まる理由はない
  CritPtベンチマークは未発表研究レベルの物理問題で構成されているので、追ってみる価値がある
  https://critpt.com/
  最先端モデルでもまだ解決にはほど遠いが、進歩は速い。o3 highは1.5年前に1.4%、GPT 5.4 xhighは23.4%、GPT-5.5 xhighは27.1%、GPT-5.5 Pro xhighは30.6%だ
  https://artificialanalysis.ai/evaluations/critpt
- 「メンタリング」という表現は擬人化であり、無意識のうちにモデルが学ぶかのように考えさせてしまう。実際には学んでおらず、LLMのように賢く見えるものが学ばないという点を覚えておくのは、人間にはかなり難しい
  私も同じ間違いを何度もする
  カスタムプロンプトや指示でLLMの記憶を手動管理しなければならないのも、うっとうしい理由の一つだ
  長期記憶機能はまだ本格的には使っていないが、プロンプト以上に信頼しにくい気がする。1〜2年で変わることが多すぎて、その「記憶」も何度も作り直す必要がありそうだ
- LLMは、出力に対する期待値があるときに最もよく機能する。だいたい正解の形を知っていれば、行ごとではなく感覚的に評価できる
  期待値がなければ、すべてを額面通り受け取るしかなく、その瞬間に機械の慈悲に委ねられる
- 物理学の教授ではないが、シニアエンジニア領域でのツールの使い方と似ている
  基礎力を持ち込み、せっかちなエージェントをsanity checkし、他の人たちも同じことができるようその基礎力を植え付けようとしている
  結局のところ、このやり方こそ全体が機能する唯一の道のように感じる。いつか企業が、維持可能なより小さなローカルモデルへ移行する場合を除けば
- LLMは、仕事をバラ色でもっともらしく提示し、続ければさらにやってくれると言う
  正しい確率と崖から飛び降りさせる確率が半々なのに、旅そのものは常に美しい5つ星体験のように包装されている
  エラーを見つけてLLMに伝えると、たいていはさらに悪化する。LLMは喜ばせようとして謝り、方向転換するからだ
  そうなったら、たいていはセッションを保存するか破棄して最初からやり直すか、大胆に方向を変えることになる
  私にとってGeminiは最も予測しづらいLLMで、全体としてはGPTが最もしっくりくる
  最近Geminiは同じ質問に2つの異なる答えを返した。わざと新しいチャットを開き、同じプロンプトを貼り付けて試したテストだった
  コーディング領域では、推論機能はそれほど助けにならない。LLMの説明は非常に高レベルで、形式的には正しく見えるからだ
  LLMのせいで、むしろGoogle検索をより多くするようになった。結局、ボタンを押す前に自分で先に検証しなければならない何かを誰かが作り出しているだけで、そのきらびやかなボタンが動くのか地獄へ案内するのかは少し後になってようやく分かる
数学者がLLMと長く対話しながら有用に導いたとしても、技術的作業と主要アイデアをLLMがすべてやったなら、それを数学者の大きな業績と見るかどうかは文化的選択だ
現在の数学文化では違和感があるのは自然だが、すでに他分野や多くの個人は、人間に大きな業績があったと見なすかもしれない
人間とAIの協働が最良の結果を生む間は、人間にも意味ある貢献があり、深い専門家で熟練したLLM使いは大きな貢献をできる
本当の変化は、純粋なAIが人間単独と人間-AI協働の両方を打ち負かすときに来る
- 自動車レースでは性能の大半は車から来るが、私たちはドライバーを称賛する。2台の車の性能が近いときは、ドライバーの巧さやミスが差を生む。馬術も同じようなものだ
  数学でも、人間はLLMを正しい道へ導き、特定の問題や別の問題へ向かわせることができるのだから、ある程度は称賛に値する
  車を作ったチーム、馬の世話をした人、AIを作ったチームがもっと大きな称賛を受けるべきかもしれないが、私たちは普通、最も目立つ一人により関心を向ける
- この論点はAI画像やコメディを思い出させる
  画像が人を笑わせるとしても、プロンプトを入れた人が制作作業の大半の功績を得るわけではないが、最初のアイデアや複数の下書きから特定の結果を選んだセンスについては評価されうる
  数学者がLLMの「やった」驚くべき結果を得たのなら、プロンプトを与え導いた点について、ある程度の功績はあると思う
  ただ、最初の人は芸術家ではなくコメディアンと呼べるかもしれないが、その数学者が依然として数学者なのか、それとも別の何かなのかが問題だ
- 誰かがプロンプトを見つけたり、会話を自動化して未解決の数学問題をすべてなめたりしたとしても、有用な結果を生み、誰にも害を与えなかったなら、それは価値ある人間活動であり報われるべきだと思う
  他の数学者に与えるのと同じだけ報酬を与えればよい。もちろん億万長者の数学者がたくさん出るだろうから、その報酬はかなり大きいだろうが
- 数学者の大きな業績ではないかもしれないが、それでも大きな結果ではある
「数学をする目的が何らかの不滅性を得ることなら、それはもう長くは可能ではないかもしれない」という一文は少し悲しかった
- 昨日YouTubeで映画『21』（2008）を無料で見た
  映画の導入部にはMITキャンパスを駆け回る学生たちと、高等教育がもたらす約束や地位が満ちている
  AIにどれほど多くのものが移っていくのかを悟って、似たような悲しさを覚えた
  [0] - https://youtu.be/0lsUsWdkk0Y?si=TJl7f_b1RcWcDqF8&t=278
- その一文がエッセイで最も興味深かった。学界で数学のキャリアをすぐ諦めた頃を思い出したし、19〜20歳の頃、自分はその分野で世界的レベルにはなれないと思っていた。実際その通りだった
  次に考えたのは「自分は何が得意なんだろう？」で、その中には少なくとも「何なら世界的レベルになれるだろう？」あるいは「何なら非常にうまくやれるだろう？」が含まれていた
  自分が何らかの結果を見つけて名前を付け、自分より長く残すことで数学的不滅を得られれば十分だと考えたことはないが、もしそうならこの悪い知らせは似た衝撃を与えたかもしれない
  ただ、周辺部では前提に同意しない。どれほど多くの証明支援系やクラスタ計算を使おうと、リーマン予想を証明するチームや個人は有名になるだろう。少なくとも数学界では有名になる
- そこまで失望することかは分からない。偉大な数学者の大半が実際に不滅性を得るためにやっていたとは思わない
  おそらく多くの人は、数学→物理→工学へとつながる間接的な実用応用を狙っていたか、単に数学の美しさと知的な喜びのためにやっていたのだろう
  AIが実用応用まで担うようになっても、残りの側面は依然として楽しめる
- あらゆる種類の人間的達成について同じことが言える
大学院生として、この文章は悲しかった。自分の仕事が自分自身を超えて、この宇宙的経験の中で与えられた限られた時間の先まで語ってくれると信じてきた
そうした不滅の感覚は、大学院に飛び込むとき期待していた小さく形のないボーナスだったが、AIのせいで自分がより価値の低い存在に感じられる
- もっと長く生きてきた者として、そういう考えは手放したほうがいいと慎重に言いたい。優秀で野心的な人たちがその考えのせいで鬱に落ちていくのをあまりに多く見てきた
  それができるからこそ、それをする価値があるのだ。愛しているから、そして謎を愛しているからやってほしい
  それができる一瞬一瞬を楽しんでほしい。満足を与えない仕事に苦しむ人たちとは違い、そうしたことができる大きな幸運に喜びを見いだしてほしい
  退屈なこともあるが、ときにはそれ自体が信じられないほど報われる
  ただし永遠の栄光の可能性のために働くべきではない。そんなものはもう存在しない
- 十分に価値はある。大学院で技術を磨けば、長く難問と格闘していない人より、こうしたAIをうまく指揮できるようになる
- 「知能を他のあらゆる人間的資質より高く評価するなら、つらい時間を過ごすことになるだろう。」 - Ilya Sutskever, 2023
- この現実には、LLMが自力で見つけられることよりもはるかに多く学ぶべきものがある。特に真実、倫理、道徳についてはなおさらで、この現実を去るとき結局重要なのはそれだけだ
  それ以上に大きな挑戦はない
- 勇気は、奇妙な科学的ブレークスルーよりも時間をよく超越する気がする。そうした突破はたいてい一人に帰されるが、その根は無名の「それほど重要ではない」人々にあることが多い
東欧の理論計算機科学の助教として、数学界の大物たちが高価な長時間推論モデルに簡単にアクセスできるのが、いつも少しうらやましい
現在の学術予算でProを払うのは、ここでは現実離れしている。予算は用途が厳しく限定されていて、ソフトウェア支払いに合う項目がほとんどない
実際には新しい研究費を申請し、その規定が大きなソフトウェア支出を認め、しかも反AIの審査者に当たらないことを祈るしかない。そうした手続きには最低でも1年かかる
追い打ちをかけるように、MicrosoftがCopilotの個人利用および学術利用を引き締めたため、最近ではClaude Opusへのアクセスも遮断された
ChatGPT 5.5 Plusは、新しい研究テーマを深く掘るには十分ではなさそうだったし、自分でも試してみた
- @NotOscarWilde メールを残してくれれば連絡する。OAIで働いていて、数か月間5.5 Proを使えるProアカウントを用意できる
- うちの大学では最近、共同AIサービスが導入されるまでは全員がAIのサブスク料金を自腹で払っていた
  そのサービスのセットアップには2年かかり、gpt-oss-120bしか提供しないので、今でも全員が別のサービスを使っている
  それでも、ある管理者は大学のWebサイトのあちこちに「AI」という単語をばらまけるし、「もうAIはある」という理由でAIサブスクの申請を断る口実にもできる
- 最も有利な位置にいる人たちが、報酬を取り続けるのにも最も有利な位置にいるという典型例だ
  貧しい人と金持ちがブーツを買う話がある。貧しい人のブーツはすり減って買い替え続けなければならないが、金持ちのブーツは品質が良く何年ももつ
  時間がたつと、貧しい人のほうがブーツにより多くの金を使うことになる
- OpenRouterはサブスクなしでトークン従量課金だけでも使え、Opus 4.7やGPT-5.5を含む最先端モデルの大半を提供している
  節約して使えば、普通はかなり安く済む
- ChatGPT 5.5 Proへのアクセスは月100ドルで可能だと理解しているが、その立場や地域では現実的に負担不可能な水準なのか気になる
  大学が払ってくれなくても、自分の目標のために使いたくなる気がする
  責めたいわけではなく、その地域の研究者の大多数にとってまったく手の届かないコストなのか知りたい
10年ほど前、SeattleのAMS-MAA合同会議でTim Gowersが講演し、100年後には人間はもはや研究数学をしていないだろうと予測するのを見た。今は予定を修正したのか気になる
当時は、MathOverflowのように機能する自然言語検索こそ決定的に欠けているツールだと思っていた。問題やアイデアを自分が理解した形で説明すると、自分の経験や語彙の外にある関連文献を見つけてくれるようなものだ
- Teichmüllerも、ドイツが第二次世界大戦に勝つと考えて東部戦線に志願した
  優れた数学者だからといって正しいとは限らない。実際、数学者はかなり奇妙な理論をたくさん持っている
この秋に高等教育へ進む学生の圧倒的多数は、たとえ研究をするとしても、科学に大きく貢献できるのは4〜5年後になってからだ。博士課程が本格化する時点まで見れば、現実的には6〜7年後だ
5〜7年前のモデル水準を見れば、当時は博士課程にとっての実存的脅威などレーダーにすら入っていなかった。今博士課程を終える人たちは、これらのツールを本当に活用できる最初の世代だ
ここで、研究者を目指す学生たちが敗北感を覚えてやめてしまったり、AIモデルに完全に頼って仕事をさせたりすると問題になる
博士課程ポストへの資金配分も同じだ。「研究者の養成」のための支援から「成果達成」のための支援へ移れば、博士課程学生に使われていた金が計算資源へ流れるかもしれない
冷笑的に見れば、ある研究者は学生を数年育てるより、計算資源に金を使ってはるかに多くの論文を生み出せる
面白い時代だが、不確実性が大きすぎる。今まさに何をするか決めなければならない学生たちが気の毒に思える
- こうしたことはすでに起きていて、さらに加速するだろう。大学院の外でも、すでに学位は買える
  特によりソフトな分野では、博士論文や立派な出版実績を今でも買うことができる
  学界ではなく産業界にいるなら、昇進も買える。雇用主が全社員にAI予算を与えるなら、昇進するまでは黙って自腹でその予算を2倍にし、昇進後はやめてより高い給料を享受すればいい
- 博士課程の学生たちはすでにAIモデルを使って仕事をさせている。私の知る博士候補の大半は、月200ドルのClaude Maxプランを最大限活用している
  以前にはできなかった研究ができるようになっているのが分かる
  AIの使用が、コードを自分で書く能力をある程度弱めているのも見えるが、scikit-learnやPytorchで機械学習モデルを書くのと似たものだと考えている
  最下層の細部は抽象化され、AIなしではあまりできなくなるかもしれないが、その研究は実際にその人によって起きているのであり、AIだけでは起きなかっただろう
- これまで機関が博士課程学生に大盤振る舞いで金を出していたわけでもない
  後から付いた予算項目に近いその金は、高価で別の手続きのために奪いに行くほど魅力的な標的ではない

ChatGPT 5.5 Proを最近使ってみた経験

LLMが変える組合せ論の問題解法

Nathanson問題と最初の成果

Sidon集合と制限和集合への拡張

一般次数問題とRajagopal論文の改善

AIが作った数学成果をどこに置くべきか

Isaac Rajagopalの評価と技術的背景

ChatGPTが寄与した核心

問題の背景

幾何級数的サイズ構成の代替

Bₕ 集合、dissociated集合、ChatGPTの構成アイデア

Bₕ 集合の役割

幾何級数列が再現していた性質

h-dissociated集合の利用

関係の数を半分だけ含めるという直観

ChatGPTの証明とRajagopalの証明の対応

数学研究と博士課程訓練への意味

分野ごとの差異と今後の変化

数学をする理由の変化

付録の技術的内容

付録 1: h-dissociated 集合の構成

付録 2: ChatGPT 構成の詳細構造

付録 3: Rajagopal 論文と ChatGPT プレプリントの対応

関連記事

1件のコメント

Hacker Newsのコメント