- 強化学習によって複雑な推論を実行できるよう訓練された新しい大規模言語モデル OpenAI o1 を発表
- o1 は、ユーザーに応答する前に長い内部の思考連鎖(chain of thought)を生成できる
- o1 は、競技プログラミング問題(Codeforces)で上位89パーセンタイル、米国数学オリンピック予選(AIME)では米国上位500人の生徒の1人に相当し、物理学・生物学・化学の問題を扱うベンチマーク(GPQA)では人間の博士レベルの精度を上回る
- 現在のモデルのように簡単に使えるようにする作業はまだ進行中だが、このモデルの初期版である OpenAI o1-preview を ChatGPT と信頼できる API ユーザー向けに即時利用可能として公開
評価
- GPT-4o と比べて、o1 はほとんどの推論中心タスクで大幅に優れた性能を示す
- 2024 AIME 試験で、GPT-4o は問題の平均12%(1.8/15)しか解けなかった一方、o1 は単一サンプルで平均74%(11.1/15)、64サンプルの合意で83%(12.5/15)、1000サンプルを学習済み採点関数で再ランキングして93%(13.9/15)を達成
- GPQA Diamond では、o1 は化学・物理学・生物学の専門知識をテストする人間専門家の性能を上回り、このベンチマークで初めてそれを達成したモデルとなった
- o1 は視覚認識機能を有効にすると MMMU で 78.2% を記録し、人間専門家と競争できる最初のモデルとなった
- MMLU の57の下位カテゴリのうち54カテゴリで GPT-4o より優れた性能を示した
思考の連鎖(chain of thought)
- 人が難しい質問に答える前に長く考えられるように、o1 は問題を解こうとするときに思考の連鎖を使う
- 強化学習を通じて、o1 は思考の連鎖を磨き、それを使う戦略を改善する方法を学ぶ
- 間違いを認識して修正する方法を学ぶ
- 難しい段階をより単純な段階に分解する方法を学ぶ
- 現在のアプローチが機能しないときに別のアプローチを試す方法を学ぶ
コーディング
- プログラミング能力をさらに向上させるよう訓練し、2024年国際情報オリンピック(IOI)で213点を記録し、49パーセンタイルにランクしたモデルを訓練
- このモデルは人間の参加者と同じ条件で 2024 IOI に参加
- 6つの難度の高いアルゴリズム問題を解くのに10時間が与えられ、問題ごとに50回の提出が許可された
- 10,000回の提出が許可されると、モデル性能は大きく向上
- テスト時選択戦略なしでも 362.14 点を達成し、金メダルの閾値を超えた
- Codeforces が開催する競技プログラミング大会をシミュレーションして、このモデルのコーディング実力を実証
- GPT-4o は ELO レーティング 808 を達成し、人間競技者の11パーセンタイルに相当
- このモデルは GPT-4o と o1 を大きく上回り、ELO レーティング 1807 を達成して競技者の93%より優れた性能を示した
安全性
- 思考の連鎖による推論は、アラインメントと安全性のための新たな機会を提供
- モデルの動作に関するポリシーを推論モデルの思考の連鎖に統合することが、人間の価値観や原則を堅牢に教える効果的な方法であることを発見
- モデルに安全ルールと状況に応じた推論方法を教えることで、推論能力がモデルの堅牢性に直接役立つという証拠を発見
- モデルが合法的な形で考えていることを観察でき、モデルが安全ルールについて推論することが分布外シナリオに対してより強力であるため、思考の連鎖の使用は安全性とアラインメントに大きな進展をもたらすと考えている
- 配備前に安全テストとレッドチーム編成を実施し、改善点を強調
- 思考の連鎖による推論が、すべての評価で能力向上に寄与したことが示された
結論
- o1 は AI 推論における最先端技術を大きく前進させた
- 今後も反復しながら、このモデルの改良版を公開していく計画
- o1 とその後継モデルが、科学・コーディング・数学および関連分野で AI の多くの新しいユースケースを切り開くことを期待
- ユーザーと API 開発者が、o1 が日常業務をどのように改善できるかを見出すことを期待
GN⁺の意見
- OpenAI o1 は複雑な問題解決と推論能力に優れたモデルで、人間レベルを超える性能を示している。特に数学・科学・プログラミング分野で専門家レベルの実力を持っており、関連分野の研究や応用に大きく役立ちそうだ
- 思考の連鎖(Chain of Thought)方式を使うことで、モデルの思考過程を観察して理解できるようにした点が印象的だ。これはモデルの動作を理解し制御するうえで大きな助けになるだろう。ただし、生成された思考過程をユーザーにそのまま公開しないとした点には議論の余地がある
- モデルの安全性強化のためにポリシールールを思考過程に統合した点も注目に値する。ただし、まだ完全ではないように見えるため、継続的なモニタリングと改善が必要だろう
- o1 は非常に強力なモデルだが、完全無欠ではない。バイアスや倫理的問題など、AI モデル全般にわたる限界は依然として存在する。技術的進歩とともに、こうした限界を克服するための継続的な努力が必要になるだろう
1件のコメント
Hacker Newsの意見
1つ目の意見
2つ目の意見
3つ目の意見
4つ目の意見
5つ目の意見
6つ目の意見
7つ目の意見
8つ目の意見
9つ目の意見
10つ目の意見