OpenAI o3-Mini リリース

(openai.com)

13 ポイント投稿者 GN⁺ 2025-02-01 | 1件のコメント | WhatsAppで共有

OpenAI o3-miniは、コスト効率に優れた推論モデルシリーズの最新モデル
2024年12月のプレビュー公開後に正式リリースされ、ChatGPTとAPIで利用可能
科学、数学、コーディングなどのSTEM分野で優れた性能を示し、OpenAI o1-miniより低コストかつ低レイテンシを維持

主な機能と改善点

OpenAI o3-miniは、小型推論モデルとして初めて関数呼び出し、構造化出力、開発者メッセージをサポート
ストリーミング機能をサポートし、低・中・高の3つの推論努力オプションを提供して、状況に応じた最適化が可能
ビジョン（画像）機能はサポートせず、視覚的推論が必要な場合はOpenAI o1の利用を推奨
Chat Completions API、Assistants API、Batch APIで利用可能で、API利用ティア3〜5の開発者に提供
ChatGPT Plus、Team、Proユーザーは本日から利用可能で、Enterpriseユーザーは2月から対応予定
OpenAI o1-miniを置き換えるモデルであり、より高い速度と向上した推論能力を提供
PlusおよびTeamユーザーのメッセージ上限が、従来のo1-miniの50件から150件に増加
検索機能が追加され、最新情報をWebリンク付きで提供する機能を実験中

無料ユーザー向けアクセス拡大

無料ユーザーもメッセージ作成欄で**Reason**を選択するか、応答の再生成を通じてo3-miniを利用可能
ChatGPTでreasoningモデルが無料ユーザーに提供されるのは今回が初めて

STEM最適化と性能向上

STEM分野に最適化された性能を提供し、o1-miniと比べてより高速かつ正確な応答を生成
専門テスターの評価では、o3-miniは56%のケースでo1-miniより好まれ、難しい問題では主要なエラーが39%減少したことが確認された
AIME、GPQAなどの高難度な推論・知能評価でo1に近い性能を示しつつ、より高速な応答を提供

主な性能比較

数学(AIME 2024):
- 低い推論努力ではo1-miniと同等の性能、中程度の推論努力ではo1に近い性能
- 高い推論努力ではo1およびo1-miniを上回る性能を示す
博士課程レベルの科学問題(GPQA Diamond):
- 生物学、化学、物理学の問題で、低い推論努力でもo1-miniを上回る性能
- 高い推論努力ではo1に近い性能
広告
高度数学(FrontierMath):
- Pythonツールを活用すると、初回試行で32%以上の問題を解決し、高難度問題(T3)も28%以上を解決
競技プログラミング(Codeforces):
- 推論努力が増えるほど高いEloスコアを記録し、o1-miniより優れた性能
- 中程度の推論努力ではo1に近い性能
ソフトウェアエンジニアリング(SWE-bench Verified):
- SWEbench-verifiedでこれまでにリリースされたモデルの中で最高の性能を記録
実運用コーディングテスト(LiveBench Coding):
- o1-highを上回る性能を示し、高い推論努力ではさらに圧倒的な性能を発揮
一般知識評価:
- 全体的な知識評価でo1-miniより優れた結果を示す
広告
ユーザー選好評価:
- 専門家テストの結果、o3-miniはo1-miniより56%多く好まれ、難しい問題では39%のエラー減少が確認された

速度と性能の改善

o1に近い知能を維持しながら、より高速な性能と向上した効率を提供
数学および事実性評価で、中程度の推論努力でも改善された結果を実現
A/Bテスト結果では、o3-miniはo1-miniより応答速度が24%高速
- 平均応答時間: o3-mini(7.7秒) vs o1-mini(10.16秒)
- 最初のトークン出力速度: o3-miniはo1-miniより平均2500ms高速

安全性と対応措置

OpenAI o3-miniは、「熟慮的アラインメント(deliberative alignment)」手法を活用し、より安全な応答を生成するよう学習されている
OpenAI o1と比較した場合、GPT-4oを上回るレベルの安全性と脱獄(jailbreak)耐性を示す
リリース前に、Preparedness評価、外部レッドチームテスト、安全性評価を通じて徹底的に検証された
o3-miniの不許可コンテンツ応答評価および脱獄評価結果はシステムカードで提供される

今後の計画と展望

OpenAI o3-miniは、コスト効率に優れたAI知能発展の新たな段階を意味する
STEM最適化と低コストモデル開発を通じて、高品質なAIをより多くのユーザーに提供する目標を継続
GPT-4リリース以降、トークン単価を95%削減しつつ、最高水準の推論能力を維持する方向で発展
AIの一般的な採用が拡大する中、知能・効率・安全性のバランスを取ったモデル開発に注力する計画

1件のコメント

GN⁺ 2025-02-01

Hacker Newsの意見

Claude-3.5-sonnetモデルは一貫性に優れており、他のモデルはADHDのような問題を抱えている
- NextJSアプリでshadcnコンポーネントを使おうとすると、sonnetはほぼ完璧にこなすが、他のモデルはradix-uiを使おうとする
- o3-miniモデルも同じ問題を抱えている
- cursorの指示セットが問題である可能性がある
- sonnetが唯一の実用的なコーディング選択肢として残っている
o3-miniの応答はo1-miniより56%好まれた
- 2つの応答が2,000語ある場合、質問により早く答えた方を選ぶ傾向がある
- この調査は無意味で、50%の回答率はコイン投げと同じだ
o3-miniを使ってスレッドを要約した結果を共有
- 18,936入力、2,905出力で3.3612セントかかった
AIコーディングでは、o3-miniはo1と似たスコアを獲得し、コストは10分の1と安い
- o3-miniは中程度の努力でR1とSonnetの間のスコアを獲得する
新しいモデルとreasoning_effortオプションをサポートするLLM CLIツールの新リリースを発表
- 使用例を共有
o3-miniのSWEベンチスコアが61%から49.3%に下がったことを指摘
- o3-miniは実際のコーディング作業でClaudeに近い性能を見せる
o3-mini-highがseg faultの根本原因を突き止めることに成功したと述べる
- 以前o1が見逃した問題を解決した
SWE-Benchでかなりの向上を見せており、以前o1-miniが処理できなかった作業をこなせるか再試行する価値がある
- $4/100万出力トークンと$60のコスト差がある
AIを取り巻く環境は急速に変化しており、新しいAIモデルが登場している
- AIの変化が今回のリリースや今後のリリースにどのような影響を与えるのか気になっている

OpenAI o3-Mini リリース

主な機能と改善点

無料ユーザー向けアクセス拡大

STEM最適化と性能向上

主な性能比較

速度と性能の改善

安全性と対応措置

今後の計画と展望

関連記事

1件のコメント

Hacker Newsの意見