- OpenAI o3-miniは、コスト効率に優れた推論モデルシリーズの最新モデル
- 2024年12月のプレビュー公開後に正式リリースされ、ChatGPTとAPIで利用可能
- 科学、数学、コーディングなどのSTEM分野で優れた性能を示し、OpenAI o1-miniより低コストかつ低レイテンシを維持
主な機能と改善点
- OpenAI o3-miniは、小型推論モデルとして初めて関数呼び出し、構造化出力、開発者メッセージをサポート
- ストリーミング機能をサポートし、低・中・高の3つの推論努力オプションを提供して、状況に応じた最適化が可能
- ビジョン(画像)機能はサポートせず、視覚的推論が必要な場合はOpenAI o1の利用を推奨
- Chat Completions API、Assistants API、Batch APIで利用可能で、API利用ティア3〜5の開発者に提供
- ChatGPT Plus、Team、Proユーザーは本日から利用可能で、Enterpriseユーザーは2月から対応予定
- OpenAI o1-miniを置き換えるモデルであり、より高い速度と向上した推論能力を提供
- PlusおよびTeamユーザーのメッセージ上限が、従来のo1-miniの50件から150件に増加
- 検索機能が追加され、最新情報をWebリンク付きで提供する機能を実験中
無料ユーザー向けアクセス拡大
- 無料ユーザーもメッセージ作成欄で**
Reason**を選択するか、応答の再生成を通じてo3-miniを利用可能
- ChatGPTでreasoningモデルが無料ユーザーに提供されるのは今回が初めて
STEM最適化と性能向上
- STEM分野に最適化された性能を提供し、o1-miniと比べてより高速かつ正確な応答を生成
- 専門テスターの評価では、o3-miniは56%のケースでo1-miniより好まれ、難しい問題では主要なエラーが39%減少したことが確認された
- AIME、GPQAなどの高難度な推論・知能評価でo1に近い性能を示しつつ、より高速な応答を提供
主な性能比較
- 数学(AIME 2024):
- 低い推論努力ではo1-miniと同等の性能、中程度の推論努力ではo1に近い性能
- 高い推論努力ではo1およびo1-miniを上回る性能を示す
- 博士課程レベルの科学問題(GPQA Diamond):
- 生物学、化学、物理学の問題で、低い推論努力でもo1-miniを上回る性能
- 高い推論努力ではo1に近い性能
- 高度数学(FrontierMath):
- Pythonツールを活用すると、初回試行で32%以上の問題を解決し、高難度問題(T3)も28%以上を解決
- 競技プログラミング(Codeforces):
- 推論努力が増えるほど高いEloスコアを記録し、o1-miniより優れた性能
- 中程度の推論努力ではo1に近い性能
- ソフトウェアエンジニアリング(SWE-bench Verified):
- SWEbench-verifiedでこれまでにリリースされたモデルの中で最高の性能を記録
- 実運用コーディングテスト(LiveBench Coding):
- o1-highを上回る性能を示し、高い推論努力ではさらに圧倒的な性能を発揮
- 一般知識評価:
- 全体的な知識評価でo1-miniより優れた結果を示す
- ユーザー選好評価:
- 専門家テストの結果、o3-miniはo1-miniより56%多く好まれ、難しい問題では39%のエラー減少が確認された
速度と性能の改善
- o1に近い知能を維持しながら、より高速な性能と向上した効率を提供
- 数学および事実性評価で、中程度の推論努力でも改善された結果を実現
- A/Bテスト結果では、o3-miniはo1-miniより応答速度が24%高速
- 平均応答時間: o3-mini(7.7秒) vs o1-mini(10.16秒)
- 最初のトークン出力速度: o3-miniはo1-miniより平均2500ms高速
安全性と対応措置
- OpenAI o3-miniは、「熟慮的アラインメント(deliberative alignment)」手法を活用し、より安全な応答を生成するよう学習されている
- OpenAI o1と比較した場合、GPT-4oを上回るレベルの安全性と脱獄(jailbreak)耐性を示す
- リリース前に、Preparedness評価、外部レッドチームテスト、安全性評価を通じて徹底的に検証された
- o3-miniの不許可コンテンツ応答評価および脱獄評価結果はシステムカードで提供される
今後の計画と展望
- OpenAI o3-miniは、コスト効率に優れたAI知能発展の新たな段階を意味する
- STEM最適化と低コストモデル開発を通じて、高品質なAIをより多くのユーザーに提供する目標を継続
- GPT-4リリース以降、トークン単価を95%削減しつつ、最高水準の推論能力を維持する方向で発展
- AIの一般的な採用が拡大する中、知能・効率・安全性のバランスを取ったモデル開発に注力する計画
1件のコメント
Hacker Newsの意見
Claude-3.5-sonnetモデルは一貫性に優れており、他のモデルはADHDのような問題を抱えている
o3-miniの応答はo1-miniより56%好まれた
o3-miniを使ってスレッドを要約した結果を共有
AIコーディングでは、o3-miniはo1と似たスコアを獲得し、コストは10分の1と安い
新しいモデルとreasoning_effortオプションをサポートするLLM CLIツールの新リリースを発表
o3-miniのSWEベンチスコアが61%から49.3%に下がったことを指摘
o3-mini-highがseg faultの根本原因を突き止めることに成功したと述べる
SWE-Benchでかなりの向上を見せており、以前o1-miniが処理できなかった作業をこなせるか再試行する価値がある
AIを取り巻く環境は急速に変化しており、新しいAIモデルが登場している