1 ポイント 投稿者 GN⁺ 2025-10-20 | 1件のコメント | WhatsAppで共有
  • OpenAI研究員がGPT-5が解決したと主張したErdős問題関連の発表が、コミュニティや業界関係者から批判を受け、すぐに撤回された
  • その主張は、数十年解けていない数学難題への実質的な証明をAIが独立して見つけたという意味で受け取られうる表現として理解された
  • 実際にはGPT-5は既存研究を再発見して示したにすぎず、本当に未解決問題への新しい解法の提示ではなかった
  • この事件は、OpenAIの信頼性低下と検証されていないAI成果の誇張発表に対する業界の懸念を高める契機となった
  • 実際、GPT-5の強みは研究論文探索と文献整理の補助的役割にあるという点が改めて強調された

事件の概要

  • 最近、OpenAI研究員はX(旧Twitter)で、GPT-5が「10件の未解決Erdős問題を解決し、さらに11件の進展を追加した」との画期的成果を発表した
  • この主張は、GPT-5が難しい整数論問題の数学的証明を独自に導き出したという趣旨で受け取られた
  • 複数のOpenAI研究員が同様の内容の投稿を上げ、このAIが革新的な科学的発見を実現できることを示唆した

コミュニティの検証と論争

  • Erdosproblems.comサイトを運営する数学者Thomas Bloomが即座に反論し、同サイトで「open」と表示される問題は実際には未解決問題ではないと説明した
    • これらの問題は、Bloom本人が答えを知らないか、既存研究を確認できていなかった単なる事例だった
    • GPT-5は既に存在する研究成果を見つけただけで、新しい数学的解法を発見したわけではない
  • この事実が明らかになると、OpenAI研究員たちは投稿を削除するか内容を修正した
  • コミュニティや主要人物、たとえばDeepMind CEO Demis Hassabisは「恥ずかしいこと」と評価し、Meta AI担当のYann LeCunもOpenAIが自社宣伝に惑わされた挙句だと指摘した
  • 研究陣は誤りを認め、GPT-5の実際の役割について再説明した

業界の信頼問題と批判

  • この事件によって、OpenAIの信頼性・ファクトチェック体制に問題があるとの評価が拡大した
    • 特に、AI業界の誇大な期待と関連銘柄投資の熱が重なり、検証されていない成果発表への懸念が高まった
  • なぜ業界トップ研究者が検証なしで劇的な主張を公開したのか、組織内の健全性に疑問が投じられた

実際の成果とAIの数学分野での役割

  • 実質的にはGPT-5は、難解で用語が多様な数学問題に対して関連論文や研究資料を探索する補助役として有用性を示している
  • 数学者Terence Taoは、AIは『最新の未解決問題の解法』よりむしろ、膨大な文献調査と反復的な検索作業を大幅に短縮すると期待している
    • 一部に独立した進展事例はあるが、現時点では論文検索・整理の自動化支援が強みである
  • 今後、数学分野で生成AIが速度向上と自動化に貢献する可能性はある
    • ただし、専門家による検証、分類、結果の統合が不可欠

結論

  • 今回の事件は、生成AIの実際の限界と産業的可能性、そしてAI研究成果の誇張発表のリスクをすべて明らかにした代表例である
  • 結果として、GPT-5は未解決数学問題の革新的突破口ではなく、研究資料整理を支援する補助ツールとしての潜在力が強調された

1件のコメント

 
GN⁺ 2025-10-20
Hacker Newsの意見
  • OpenAIチームに公平を期すために文脈を見ると、そこまで悪意のある話ではないと思う
    削除されたツイートには「GPT-5が10個の(以前は未解決だった)Erdős問題を解き、さらに11個でも進展があった、何十年も未解決だった問題だ」と書かれていた
    このツイートが単独で投稿されていたなら誤解を招くと思うが、実際には引用ツイートだった
    最初の引用元(https://x.com/MarkSellke/status/1979226538059931886)は「これをさらに押し進めている」という内容だった
    そしてそのツイートが引用している2番目の原文(https://x.com/SebastienBubeck/status/1977181716457701775)では、GPT-5は文献検索に非常に優れていて、「実際には20年前に解かれていた問題を見つけ、まだオープン問題として分類されていた Erdos 問題 #339 を『解決』した」という話だった
    このスレッドを順番に読むと

    • SebastienBubeck: 「GPT-5は文献検索に非常に優れていて、すでに解かれていた解法を見つけ、まだ公開されたままだと思われていた問題を解いたようなもの」

    • MarkSellke: 「今度はさらに10個やった」

    • kevinweil: 「私たちが成し遂げたすごい成果を見てくれ!」
      結局のところ引用ツイートという形式の問題で、kevinweil が何段階も引用するうちに最初の問題設定(実際には既存の解法を見つけたという話)を取り落とし、読者としては誤解せざるを得ない構造になっている
      こうしたミスは十分あり得ることで、騒動はやや過剰だと思う

    • Weil が投稿した引用ツイートの文脈を十分考慮していなかった点については、実際に Weil 本人が Sellke の投稿を誤解していたと明かしている(https://x.com/kevinweil/status/1979270343941591525 で確認可能)
      Sellke は「オープン問題として分類された」と言い、Weil は「以前は未解決だった問題」と述べていて、そこが異なる

    • 最初の人は「20年前にすでに解かれていたことを見つけて問題を『解いた』」と言い、2人目は「以前は未解決だった Erdős 問題10個を解いた」と言った
      「以前は未解決だった」という表現は実際の文脈と違うのではないかと思う

    • もしかすると自分が誤解しているのかもしれない
      数か月前に DeepMind が「行列乗算を SOTA よりもうまくやる」という論文を発表したときと似ている
      当時 Gemini が新しい最適化解法を見つけたとされたが、発表直後に数学者たちが、それはすでに30〜40年前の文献にある手法だとすぐ指摘し、その内容が Gemini の学習データに含まれていた可能性も高かった

    • 「GPT-5は文献検索に非常に優れていて、既存の解法がある問題を『解決』した」という話について
      これは生存者バイアスだと思う
      実際には GPT-5 は比較的簡単な検索にも失敗することが多い
      検索結果が正しいか十分に分かっているか、あるいは自分で検証する過程が必要だ
      サイコロを1000回振って毎回ダブルシックスだけを自慢する投稿と大差ない気がする
      それで自分が最高のサイコロ投げ名人だとは言えないのと同じだ

  • erdosproblems.com を運営する数学者 Thomas Bloom がすぐに反論した点に言及
    「未解決の問題(unsolved)」ではなく、「自分が答えを知らない(open)」という意味だと強調していた
    数学者が「オープン」をそう定義するのは変だと思う
    自分が知らない教科書の問題を「オープンクエスチョン」とは呼ばないのと同じだ

  • 「GPT-5は文献レビュー補助ツールとして有用だ」という主張への反論
    実際には非常にもっともらしいが偽物のような結果ばかり作ると思う
    それで満足できる人は、人生が自分よりずっと楽なのだろう
    自分は工学系の数学論文などの資料を探して何時間も図書館をあさった末、最後の手段としてチャットボットに望みを託すことになる
    しかし結局は結果がおかしくて長い時間をかけて再検証するはめになり、「こんなの本当にあり得るはずがない」という失望だけが残る
    こうした経験は自分だけではないとも感じた

    • 文献調査の深掘り検索を頻繁にやると、GPT はおよそ50%の確率で根拠のないソースをでっち上げる
      上位レベルのレビューではおよそ5%程度の幻覚が起きる
      本物の出典が50%あるとして、その半分はすでに見慣れた論文で、残り半分は見慣れない論文だ
      本当に良い点は、従来は見つけにくかった論文を時々発見できることだ(Google Scholar などでも見つからないものを含めて)
      特に、他分野から出た関連研究や、あまり引用されていないアブストラクト論文など、非常に多様なソースに出会える
      全体の結果の75%が役に立たないか幻覚だったとしても、残り25%の価値が非常に大きいので、実際にはかなり有用だ

    • 「まったく役に立たない」と断言するのは誇張だと思う
      GPT は50万語でも数分で検索し、要約と詳細な回答、それぞれの主張ごとの根拠まで提示できる
      もちろん要約を無条件に信頼してはいけないし、重要な情報は必ず出典をクリックして検証すべきだ
      それでもなお、非常に優れた検索ツールであり生産性ブースターではある

    • 名前は思い出せないが、こういう原理がある
      人は自分が知っている分野についての新聞記事を見ると穴が全部見えて「こんなのがどうして記事になったんだ」と思うのに、
      知らない分野の記事はそのまま無批判に信じてしまう
      ChatGPT についても似たような盲信が生まれている気がする

    • 実際には、こういう GPT-5 などのチャットボットを検索や文献レビューの用途に無理に使おうとするのではなく、本当に強力な意味ベースの semantic 検索エンジンを使うほうがよかったのかもしれないと思う
      チャットボットに要約や回答を任せると、常に幻覚がついて回る
      一方で LLM 埋め込みベースの文書検索なら、結果そのものが幻覚である危険はまったくなく、従来の Google/Bing でも見つからない論文探索によりよい方法かもしれない
      すでにそういうサービスがあるのなら自分が知らないだけかもしれないので、その点は割り引いて考える必要がある

    • もし文献レビューのツールに興味があるなら、大学院の友人たちのために自分が作った公開文献整理プラットフォームを紹介する
      階層的混合モデルを使って大量検索と引用ネットワークを整理する方式だ
      活用例: https://platform.sturdystatistics.com/deepdive?search_type=external&q=https://www.semanticscholar.org/paper/6052486bc9144dc1730c12bf35323af3792a1fd0&engine=cn_all

  • DeepMind が実際に AI を活用したがん治療でブレークスルーを示したのと同じ週に OpenAI の件が明るみに出たのは、対照的でかなり印象が悪い
    昔の上司の言葉を思い出す。「新しいポリシーが必要になるような人間になるな」
    OpenAI は今後コミュニケーション方針を変える必要がありそうだ

  • OpenAI の社員たちは自社モデルの実際の能力をかなりよく分かっていそうだが、たとえそうでなくても、インターネット上のあらゆる主張には常に注意すべきだと思う
    こういう文化が結局、今の AI 誇大宣伝の環境を作ったのだと思う

    • 「誰かに理解させるのが難しい理由は、その人の給料が『理解しないこと』に依存しているからだ」という有名な言葉を思い出す
  • 今回の件で明らかになったのは、OpenAI が未解決数学問題に真剣に投資していないという悲しい現実だ

    • それは論理の飛躍だと思う
      OpenAI のような大規模組織なら、さまざまな研究部門のチームが複数の方向で実験しているのは間違いないと思う

    • OpenAI が広告と成人向けコンテンツへ事業の軸を移した時点で、「jump the shark」したのだなと思った
      市場はまだその事実を織り込めていない

    • 単一の社員が誤った発表をしたからといって、それだけで全体を簡単に評価するつもりはない

  • OpenAI の社員がこういう形(マーケティング用語で)で発表するよう求められるのは不思議ではない
    今回が初めてではなく、以前にも GPT-5 が何かを「解いた」と主張した事例がある(https://x.com/SebastienBubeck/status/1970875019803910478 参照)
    GPT-5 がマイナーな未解決数学問題(普通なら博士課程の学生が1日か2日で解ける程度)を実際にかなり解ける例は、ますます増えている
    そのインパクトはまだ十分に受け止められていない段階だ

  • 「自分で作っているものを、自分自身で過信するな」という助言が恋しい

  • Yann LeCun の「Hoisted by their own GPTards」という表現が印象的だ

    • Yann が賢く、この分野の根っこまで通じているのは確かだが、最近は否定的な流れもあり、公の立場でわりとすぐ外れる例も多いと感じる
      以前、若い研究者たちとの発表の場で強い主張を2つしていた

      1. LLM は数学の問題を解けない。もっともらしい音を出すだけで、検証可能な問題では通用しないということ
      2. LLM は計画(plan)を立てられないということ
        ところが1年で、AI はツール利用、IMO級の成績、エージェントベースの計画などをちゃんとこなすようになった
        もう1つの主張として、LLM は会話が長くなるほど誤りが蓄積して、結局は支離滅裂な結果に至るというものがあるが、最近はロングコンテキストと RL の組み合わせなどで、これも実質的に克服された例が多い
        どれほど天才でも、1人の個人の意見は多少割り引いて聞く必要があると思う
    • もしかすると自分が文脈を見落としているのかもしれないが、Yann が 'retard' をもじった語を使ったのは意外だ
      普段ならそういう言葉は Elon Musk みたいな人が使いそうな印象だ
      どういう文脈だったのか気になる

  • 数千億ドル規模の循環型ファイナンス詐欺のあとでは、AI業界や人為的な誇大宣伝に関する話を見ても、もう何も驚かない気持ちだ