13 ポイント 投稿者 GN⁺ 2025-02-01 | 1件のコメント | WhatsAppで共有
  • OpenAI o3-miniは、コスト効率に優れた推論モデルシリーズの最新モデル
  • 2024年12月のプレビュー公開後に正式リリースされ、ChatGPTとAPIで利用可能
  • 科学、数学、コーディングなどのSTEM分野で優れた性能を示し、OpenAI o1-miniより低コストかつ低レイテンシを維持

主な機能と改善点

  • OpenAI o3-miniは、小型推論モデルとして初めて関数呼び出し、構造化出力、開発者メッセージをサポート
  • ストリーミング機能をサポートし、低・中・高の3つの推論努力オプションを提供して、状況に応じた最適化が可能
  • ビジョン(画像)機能はサポートせず、視覚的推論が必要な場合はOpenAI o1の利用を推奨
  • Chat Completions API、Assistants API、Batch APIで利用可能で、API利用ティア3〜5の開発者に提供
  • ChatGPT Plus、Team、Proユーザーは本日から利用可能で、Enterpriseユーザーは2月から対応予定
  • OpenAI o1-miniを置き換えるモデルであり、より高い速度と向上した推論能力を提供
  • PlusおよびTeamユーザーのメッセージ上限が、従来のo1-miniの50件から150件に増加
  • 検索機能が追加され、最新情報をWebリンク付きで提供する機能を実験中

無料ユーザー向けアクセス拡大

  • 無料ユーザーもメッセージ作成欄で**Reason**を選択するか、応答の再生成を通じてo3-miniを利用可能
  • ChatGPTでreasoningモデルが無料ユーザーに提供されるのは今回が初めて

STEM最適化と性能向上

  • STEM分野に最適化された性能を提供し、o1-miniと比べてより高速かつ正確な応答を生成
  • 専門テスターの評価では、o3-miniは56%のケースでo1-miniより好まれ、難しい問題では主要なエラーが39%減少したことが確認された
  • AIME、GPQAなどの高難度な推論・知能評価でo1に近い性能を示しつつ、より高速な応答を提供

主な性能比較

  • 数学(AIME 2024):
    • 低い推論努力ではo1-miniと同等の性能、中程度の推論努力ではo1に近い性能
    • 高い推論努力ではo1およびo1-miniを上回る性能を示す
  • 博士課程レベルの科学問題(GPQA Diamond):
    • 生物学、化学、物理学の問題で、低い推論努力でもo1-miniを上回る性能
    • 高い推論努力ではo1に近い性能
  • 高度数学(FrontierMath):
    • Pythonツールを活用すると、初回試行で32%以上の問題を解決し、高難度問題(T3)も28%以上を解決
  • 競技プログラミング(Codeforces):
    • 推論努力が増えるほど高いEloスコアを記録し、o1-miniより優れた性能
    • 中程度の推論努力ではo1に近い性能
  • ソフトウェアエンジニアリング(SWE-bench Verified):
    • SWEbench-verifiedでこれまでにリリースされたモデルの中で最高の性能を記録
  • 実運用コーディングテスト(LiveBench Coding):
    • o1-highを上回る性能を示し、高い推論努力ではさらに圧倒的な性能を発揮
  • 一般知識評価:
    • 全体的な知識評価でo1-miniより優れた結果を示す
  • ユーザー選好評価:
    • 専門家テストの結果、o3-miniはo1-miniより56%多く好まれ、難しい問題では39%のエラー減少が確認された

速度と性能の改善

  • o1に近い知能を維持しながら、より高速な性能と向上した効率を提供
  • 数学および事実性評価で、中程度の推論努力でも改善された結果を実現
  • A/Bテスト結果では、o3-miniはo1-miniより応答速度が24%高速
    • 平均応答時間: o3-mini(7.7秒) vs o1-mini(10.16秒)
    • 最初のトークン出力速度: o3-miniはo1-miniより平均2500ms高速

安全性と対応措置

  • OpenAI o3-miniは、「熟慮的アラインメント(deliberative alignment)」手法を活用し、より安全な応答を生成するよう学習されている
  • OpenAI o1と比較した場合、GPT-4oを上回るレベルの安全性と脱獄(jailbreak)耐性を示す
  • リリース前に、Preparedness評価、外部レッドチームテスト、安全性評価を通じて徹底的に検証された
  • o3-miniの不許可コンテンツ応答評価および脱獄評価結果はシステムカードで提供される

今後の計画と展望

  • OpenAI o3-miniは、コスト効率に優れたAI知能発展の新たな段階を意味する
  • STEM最適化と低コストモデル開発を通じて、高品質なAIをより多くのユーザーに提供する目標を継続
  • GPT-4リリース以降、トークン単価を95%削減しつつ、最高水準の推論能力を維持する方向で発展
  • AIの一般的な採用が拡大する中、知能・効率・安全性のバランスを取ったモデル開発に注力する計画

1件のコメント

 
GN⁺ 2025-02-01
Hacker Newsの意見
  • Claude-3.5-sonnetモデルは一貫性に優れており、他のモデルはADHDのような問題を抱えている

    • NextJSアプリでshadcnコンポーネントを使おうとすると、sonnetはほぼ完璧にこなすが、他のモデルはradix-uiを使おうとする
    • o3-miniモデルも同じ問題を抱えている
    • cursorの指示セットが問題である可能性がある
    • sonnetが唯一の実用的なコーディング選択肢として残っている
  • o3-miniの応答はo1-miniより56%好まれた

    • 2つの応答が2,000語ある場合、質問により早く答えた方を選ぶ傾向がある
    • この調査は無意味で、50%の回答率はコイン投げと同じだ
  • o3-miniを使ってスレッドを要約した結果を共有

    • 18,936入力、2,905出力で3.3612セントかかった
  • AIコーディングでは、o3-miniはo1と似たスコアを獲得し、コストは10分の1と安い

    • o3-miniは中程度の努力でR1とSonnetの間のスコアを獲得する
  • 新しいモデルとreasoning_effortオプションをサポートするLLM CLIツールの新リリースを発表

    • 使用例を共有
  • o3-miniのSWEベンチスコアが61%から49.3%に下がったことを指摘

    • o3-miniは実際のコーディング作業でClaudeに近い性能を見せる
  • o3-mini-highがseg faultの根本原因を突き止めることに成功したと述べる

    • 以前o1が見逃した問題を解決した
  • SWE-Benchでかなりの向上を見せており、以前o1-miniが処理できなかった作業をこなせるか再試行する価値がある

    • $4/100万出力トークンと$60のコスト差がある
  • AIを取り巻く環境は急速に変化しており、新しいAIモデルが登場している

    • AIの変化が今回のリリースや今後のリリースにどのような影響を与えるのか気になっている