mathstodon.xyz の紹介
- mathstodon.xyz は、Mastodon ベースの分散型ソーシャルネットワークの一部であり、数学関連のユーザー向けインスタンス。
- Web インターフェースで LaTeX レンダリングをサポート。
- 管理者: Christian Lawson-Perfect (@christianp)
- サーバー統計: アクティブユーザー 3K
Terence Tao の GPT-o1 実験
- GPT-o1: OpenAI の新しい GPT バージョンで、LLM 実行前に初期推論ステップを行う。
- 実験 1: 曖昧な数学的質問への回答で Cramer's theorem を正確に特定し、満足のいく回答を提示。
- 以前のバージョンでは関連概念には触れていたが、詳細が誤っていた。
- 実験 2: 複雑な解析学の問題への挑戦で、多くのヒントと誘導により正しい解法を導いたが、主要な概念的アイデアを自力では生み出せず、いくつか誤りもあった。
- 以前のモデルより改善されたが、なお不十分。
- 今後数回の改良で研究レベルの作業に有用になる可能性がある。
- 実験 3: Lean で結果を形式化する作業では、問題をよく理解し、初期の分解もうまく行ったが、最新の Lean 情報が不足していたため、コードには複数の誤りがあった。
- Lean と Mathlib に特化したモデルが統合された IDE では非常に有用になり得る。
追加の議論
- AI ツールの進化: さまざまな研究作業を処理できる AI ツールのエコシステムの登場が期待される。
- 現在は大規模で汎用的な LLM が注目されているが、特定のアプリケーション向けに調整された軽量なオープンソースモデルも重要な役割を果たすと見られる。
- AI と大学院生の比較: AI ツールが大学院生レベルの貢献をできるかどうかについての議論。
- 現時点では大学院生より多くの労力が必要だが、今後数年以内にその比率が 1 以下に下がる可能性がある。
# GN⁺ の要約
- Terence Tao は OpenAI の新しい GPT-o1 モデルをテストし、数学的問題解決能力を評価した。
- GPT-o1 は以前のバージョンより改善されているが、なおいくつかの限界がある。
- 今後数回の改良で研究レベルの作業に有用になる可能性がある。
- 多様な AI ツールが研究作業を支援できるエコシステムの登場が期待される。
- 現在は大規模で汎用的な LLM が注目されているが、特定のアプリケーション向けに調整された軽量なオープンソースモデルも重要な役割を果たすと見られる。
1件のコメント
Hacker Newsのコメント
GPTがLean(証明支援ツール)でPythonのようにチューニングされれば、研究レベルの数学でさらに有用になるだろうという期待がある
2019年に戻って、Alexaとやり取りする体験が「凡庸ではあるが完全に無能ではない大学院生に助言するのに似ている」と書かれた文章を読むところを想像してみてほしい
o1モデルは非常に驚異的
O1モデルに関する体験はかなり異なる
LLMがさまざまな主題で「凡庸ではあるが完全に無能ではない大学院生に助言するのに似ている」という点は新しい
人間も「思考の連鎖」型の推論から恩恵を受けられる
Terence Taoの意見に同意する
数学を独立した趣味として再び学ぶことに期待している
Terence Taoの意見は驚きだった
Daniel Littはo1-previewに感銘を受けたが、興味深い数学の問題を解く点ではまだあまり運に恵まれていない