2 ポイント 投稿者 GN⁺ 2024-09-15 | 1件のコメント | WhatsAppで共有

mathstodon.xyz の紹介

  • mathstodon.xyz は、Mastodon ベースの分散型ソーシャルネットワークの一部であり、数学関連のユーザー向けインスタンス。
  • Web インターフェースで LaTeX レンダリングをサポート。
  • 管理者: Christian Lawson-Perfect (@christianp)
  • サーバー統計: アクティブユーザー 3K

Terence Tao の GPT-o1 実験

  • GPT-o1: OpenAI の新しい GPT バージョンで、LLM 実行前に初期推論ステップを行う。
  • 実験 1: 曖昧な数学的質問への回答で Cramer's theorem を正確に特定し、満足のいく回答を提示。
    • 以前のバージョンでは関連概念には触れていたが、詳細が誤っていた。
  • 実験 2: 複雑な解析学の問題への挑戦で、多くのヒントと誘導により正しい解法を導いたが、主要な概念的アイデアを自力では生み出せず、いくつか誤りもあった。
    • 以前のモデルより改善されたが、なお不十分。
    • 今後数回の改良で研究レベルの作業に有用になる可能性がある。
  • 実験 3: Lean で結果を形式化する作業では、問題をよく理解し、初期の分解もうまく行ったが、最新の Lean 情報が不足していたため、コードには複数の誤りがあった。
    • Lean と Mathlib に特化したモデルが統合された IDE では非常に有用になり得る。

追加の議論

  • AI ツールの進化: さまざまな研究作業を処理できる AI ツールのエコシステムの登場が期待される。
    • 現在は大規模で汎用的な LLM が注目されているが、特定のアプリケーション向けに調整された軽量なオープンソースモデルも重要な役割を果たすと見られる。
  • AI と大学院生の比較: AI ツールが大学院生レベルの貢献をできるかどうかについての議論。
    • 現時点では大学院生より多くの労力が必要だが、今後数年以内にその比率が 1 以下に下がる可能性がある。

# GN⁺ の要約

  • Terence Tao は OpenAI の新しい GPT-o1 モデルをテストし、数学的問題解決能力を評価した。
  • GPT-o1 は以前のバージョンより改善されているが、なおいくつかの限界がある。
  • 今後数回の改良で研究レベルの作業に有用になる可能性がある。
  • 多様な AI ツールが研究作業を支援できるエコシステムの登場が期待される。
  • 現在は大規模で汎用的な LLM が注目されているが、特定のアプリケーション向けに調整された軽量なオープンソースモデルも重要な役割を果たすと見られる。

1件のコメント

 
GN⁺ 2024-09-15
Hacker Newsのコメント
  • GPTがLean(証明支援ツール)でPythonのようにチューニングされれば、研究レベルの数学でさらに有用になるだろうという期待がある

    • オペレーションズ・リサーチ(OR)関連分野では、ChatGPT 4oがOR文献を十分に学習しており、有用な混合整数計画法(MIP)の定式化を提示してくれる
    • 論理問題を与えると有用な数学的定式化を生成してくれ、少し修正するだけでよい
    • 論理が破綻しうる弱い定式化について警告してくれるため、問題を避ける助けになる
    • 以前なら週末いっぱい悩まされていた問題をGPTが解決してくれて、大幅な時間節約になった
    • MIP最適化を理解し、問題を小さな断片に分解できる人にとっては、ChatGPTの月額20ドルの購読料は十分に価値がある
    • 多くの人はLLMをうまく活用できないか、過剰な期待を抱いているため不満を持つ
    • LLMの強みを理解し、ミスをチェックできる人は仕事で大きな助けを得ている
  • 2019年に戻って、Alexaとやり取りする体験が「凡庸ではあるが完全に無能ではない大学院生に助言するのに似ている」と書かれた文章を読むところを想像してみてほしい

    • 5年でとてつもない差が生まれた
  • o1モデルは非常に驚異的

    • Rustコード最適化プロジェクトで大きな速度向上を得て、正確性も検証できた
    • Jensen-Shannonダイバージェンスに基づく新しい統計的依存性測度を考案して実装した
    • 大きなベクトル(たとえば15,000次元以上)を扱う際に高速な実装を見つけにくかった正規化相互情報量を高速に実装した
    • 最初は完璧なRustコードを出せなかったが、1回の試行ですべてのバグを修正した
    • GPT-4oはRustの型エラー修正に何度も試行が必要だった
    • Claude3.5 SonnetはRustに関して非常に無能だった
    • 非常に挑戦的な作業で大きな助けになった
    • 性能最適化や比較的バグの少ないコードだけでなく、創造的な問題解決と膨大な数学的・アルゴリズム的知識を組み合わせ、目標を理解して実現してくれる
  • O1モデルに関する体験はかなり異なる

    • 簡単な質問にも混乱することがある
  • LLMがさまざまな主題で「凡庸ではあるが完全に無能ではない大学院生に助言するのに似ている」という点は新しい

    • 経験のある分野で小さな作業を処理するのに大いに役立つ
    • 問題を小さな断片に分解すれば、堅実な仕事をする
    • 概念的な理解が必要であり、プロンプト技術が重要だ
    • 複雑な主題を理解するためにLLMを使い、専門家の検証を通じて概念を確認する
  • 人間も「思考の連鎖」型の推論から恩恵を受けられる

    • 数学を学ぶすべての学生が関連する定義や情報を記憶していれば、能力は大きく向上するだろう
    • AIは感情的な障壁がないため、より良い推論ができる
  • Terence Taoの意見に同意する

    • LLMはパターンマッチングによって性能を向上させられるが、真の一般化を生み出すには有効でない可能性がある
    • 新しい問題や複雑な問題では、依然としてハルシネーションや誤った推論が起こりうる
  • 数学を独立した趣味として再び学ぶことに期待している

    • LLMを通じて複雑な解析の質問を解くうえで大きな助けを得ている
    • LLMが概念的なつながりを素早く見つけてくれる能力に驚いている
    • 特定の定義を緩めて、非向き付け可能多様体で複素解析が可能かと尋ねたところ、LLMは直ちにCauchy-Riemann方程式が大域的に整合しないことを見抜いた
    • LLMがなければこの問いに答えられなかっただろう
  • Terence Taoの意見は驚きだった

  • Daniel Littはo1-previewに感銘を受けたが、興味深い数学の問題を解く点ではまだあまり運に恵まれていない

    • 単純な作業ではより信頼でき、非数学的な作業では時間の節約になるかもしれない