2 ポイント 投稿者 GN⁺ 2025-01-20 | 1件のコメント | WhatsAppで共有
  • 最近OpenAIが新モデルo3を公開し、数学分野で画期的な性能を達成したと発表した
  • 特に従来モデルが2%だったFrontierMathベンチマークで25%を達成し、大きな注目を集めた
  • 発表後、このベンチマークの構築過程に関して透明性が不足していたとの指摘が出た
  • これを通じて、将来のAIベンチマークと評価、安全性の議論に教訓を得ることができる

事件の概要

  • 2024年11月以前、Epoch AIは数学評価用ベンチマークFrontierMathの構築を開始した
  • 外部の数学者に問題作成を依頼し、約300〜1000ドルの報酬を支払った
  • 当時、誰が資金を出しているのか、誰が問題と解答を閲覧できるのかは明確に知らされていなかった
  • 2024年11月7日、Epoch AIはarXivに最初の論文バージョンを公開したが、そこには資金源への言及がまったくなかった
  • 2024年12月20日、OpenAIはo3モデルを公開し、FrontierMathで25%を達成したと発表した
  • 同日、Epoch AI論文のv5がarXivで更新され、そこでOpenAIが全額支援しており、難問の大半とその解答にアクセス可能であることが明かされた

追加の詳細

  • 12月の更新直後にもこの問題への懸念はあったが、最近さらに関連情報が明らかになった
  • FrontierMathは難易度を、(a) オリンピックレベル(25%)、(b) 中間難易度(50%)、(c) 専門家でも数週間を要するレベル(25%)に分けている
  • o3が25%を達成したという発表では、主にどの難易度の問題を解いたのかが公開されず、誤解を招く可能性がある
  • OpenAIは全問題と解答にアクセスしていたが、口頭合意によりこのデータセットを直接学習に使わなかったと推定される
  • しかし内部でどのような方法でモデルが学習されているのかを正確に知るのは難しい、との指摘がある

なぜ別の問題にもなるのか

  • FrontierMathの問題を所有・アクセスできれば、モデル性能の向上に間接的に役立つ可能性がある
  • 特に非公開の高難度問題を通じて、モデル検証や探索手法を精緻化できるのではないかという懸念が提起されている
  • 25%達成の発表が実際に難問を解く能力を意味するのか、それとも易しい問題を中心に解いた結果なのかは不明確である

明示的な訓練がなくても能力を高められるデータセット

  • o3の内部構造はあまり公開されていないが、一部の他研究では「推論段階でスケールを拡張する方式」を採用している
  • MCMCベースのChain-of-thought評価を自動学習したり、中間段階に報酬モデル(PRM)を付けて探索を強化したりする研究が紹介されている
  • FrontierMathのような難しいベンチマークは、こうした報酬モデルの検証に有用でありうる
  • つまり直接学習に使わなくても、モデルの探索戦略や検証手法のチューニングに使われる余地がある
  • 独立かつ公正な評価を目的とするなら、一度だけ評価し、他用途には使わないほうが望ましいとの意見が出ている

AI安全性への懸念

  • Epoch AIはAIの発展傾向を追跡し、安全性を考える団体として知られている
  • FrontierMathに問題を提供した数学者の中には、むしろAI能力向上のために使われると知っていたら貢献しなかった人もいた可能性がある
  • 結局のところ、OpenAIが望まない人々から間接的に問題を調達し、モデルの検証・開発に用いた格好になったという指摘である
  • このような不透明性は、AI安全性や研究倫理の観点から懸念を生む

AI Safety Researcherであるmeemiのコメント

  • FrontierMathはOpenAIの資金提供を受けていた
  • この事実が12月20日以前には外部に透明に公開されていなかったとの指摘がある
  • arXivに上がった初期バージョン(v1–v4)にはOpenAI支援への言及がなく、12月20日以後に公開されたバージョンで初めて言及されたという経緯である
  • Epoch AIがOpenAIとどのような合意をしていたのかは明確に知られていないが、o3発表(12月20日)時点までは資金支援の事実を非公開にしていた可能性が提起されている
  • 数学問題作成に参加した数学者たちには、OpenAIの資金提供の事実が(積極的に)伝えられていなかったと言及されている
  • 契約参加者はNDAを締結し、問題と解答をメールやOverleafなどで共有できないようにするなど、厳格なセキュリティが維持されていた
  • ただし彼らには、OpenAIの資金提供の事実やデータ活用の可能性が明確に伝えられていなかったとの指摘がある
  • 一部の著者ですら、OpenAIが資金提供している事実を知らなかった可能性があるという主張が出ている
  • 大半の人々と契約参加者は、「このベンチマークの問題と解答は完全に非公開に保たれ、Epochだけが使用する」という認識を持っていたようだ
  • 現在、Epoch AIやOpenAIは公に「OpenAIが問題や解答にアクセスする」事実を明かしていないが、実際にはOpenAIがこれを活用しているといううわさがある
  • このデータセットを学習用に利用できないよう制限する明示的合意があるのかは不透明だとの言及がある
  • 結果として、資金提供およびデータ活用の可能性について明確に公開し、問題を作成する契約参加者に十分な情報を提供すべきだったという批判的見方が存在する

Epoch AI所属のTamayのコメント

  • Epoch AI所属のTamayが自ら透明性の問題を認めた
    • OpenAIの関与をo3リリース前まで公開できなかった契約条件が存在した
    • その後、透明性が不足していた点を認め、貢献者たちにもっと早く情報を提供すべきだったと述べた
    • 資金源とデータアクセス権限について明示的に伝えられなかった点について、自らの非を認めた
  • 今後の協業における透明性改善の約束
    • 今後は貢献者が最初から資金源、データアクセス、利用意図を明確に知れるよう努めるとした
    • 一部の数学者には研究室の資金を受けていると伝えたが、体系的には共有されていなかった
    • 特定の研究所名(つまりOpenAI)を明かさずに進めた点が問題だったと見ている
    • 最初からこのような協力関係を公開するため、より強く交渉すべきだったと述べた
  • o3リリース時点まで公開が制限された問題
    • 契約上の義務により、OpenAIとのパートナーシップをo3リリース前後まで公開できなかった状況だった
    • 問題を作る数学者には、自分の作業が誰に渡る可能性があるのかを知る権利があった
    • 契約のため貢献者にきちんと説明できなかったことを反省している
  • データアクセスと訓練利用の可能性
    • OpenAIはFrontierMathの問題と解答の大部分にアクセス可能である
    • ただし訓練用途には使わないという口頭合意があると述べた
    • OpenAIの従業員はFrontierMathを「強く保持されたテストセット(strongly held out set)」と公に言及している
    • 実際に独立検証用として、OpenAIがアクセスできない別個のholdoutセットが存在する
    • これにより過度なモデル訓練やオーバーフィッティングを防ぎ、客観的な性能測定を維持しようとしている
  • FrontierMathの本来の目的
    • もともとFrontierMathは評価用として企画・発表されたプロジェクトだった
    • OpenAIも実質的なテストセットを維持する決定を支持したという
    • 学界と研究所の双方にとって、真に汚染されていない(訓練に使われていない)テストセットを確保することが重要だと強調している
  • [修正] OpenAIのデータアクセス範囲
    • 誤解を減らすため、OpenAIは最終的に独立検証用の別個のholdoutセットにはアクセス権がないことを明記した

1件のコメント

 
GN⁺ 2025-01-20
Hacker Newsの意見
  • 口頭合意でモデル学習には使わないと約束されていたにもかかわらず、この種の合意はしばしば破られうると指摘

    • OpenAIがベンチマークデータにアクセスできた一方で、学習に使わないという取り決めが口頭のみだった点に懐疑的な見方を示す
  • Epochの共同創業者が、OpenAIがFrontierMathの問題と解答にアクセスできたことを認めたが、口頭合意によって学習には使わないことになっていたと述べる

    • 口頭合意の信頼性に疑問を呈し、OpenAIが技術的には合意を順守しつつも、ベンチマークで不当な優位を得る方法はいくらでもあると指摘
  • OpenAIのマーケティングをそのまま信じる人々への批判

    • Soraのデモに手作業の編集が含まれていたにもかかわらず、それに言及しなかった事例を例として挙げる
  • Epoch AIのTamayが、OpenAIの関与について十分に透明ではなかった点を認める

    • 契約上、情報開示が制限されており、ベンチマークの貢献者にもっと早く透明性を提供するため、より強く交渉すべきだったと悔やむ
  • OpenAIのベンチマーク結果は信頼を失っており、他のAI企業がFrontierMathで重要な結果を得る機会を持っていたと言及

  • LLMsやAIが本当に賢いかを確かめるには、質問が訓練セットに含まれていなかったことを証明しなければならないと主張

    • 質問や回答が訓練セットに含まれていなかったと分からないなら、AIが賢いと主張すべきではない
  • 意図的にベンチマークを欺いていなくても、同じテストを繰り返し受ければ過学習やp-hackingが起こりうると指摘

    • 小さな変化が実際の改善なのかノイズなのか判断しづらく、研究者がノイズに基づいて最適化を発見したと信じてしまう可能性があると説明
  • OpenAIが大衆を誤導していることへの不快感を表明

    • CEOの行動がFrontierMathとEpoch AIの評判を損なうだろうと述べる
  • AI企業が独自の評価を構築する可能性が高まっており、公開ベンチマークは使い尽くされつつあるため、より多くのフロンティア・ベンチマークへの投資が必要だと強調

  • AI企業が提示する評価結果は信頼できないと主張