- o3とo4-mini モデルは、ChatGPTの推論能力を大幅に向上
- この2つのモデルは単純な質問応答を超えて、ツールの組み合わせ利用、視覚資料の分析、画像生成、Pythonコードの実行 など複雑な作業も実行可能
- 特に、ユーザーが質問した際に、どのツールをいつ使うべきかを 自ら判断して実行 できる能力を備える
- 複雑な問題解決、視覚的推論、マルチステップ分析に強く、より人間らしい会話スタイル を志向
- o3は複雑な問題解決向け、o4-miniは高速かつ効率的な推論向けモデル であり、それぞれ高性能と高効率を同時に追求
- 画像とテキストを一体として考える マルチモーダル推論能力 と、高度な エージェント型ツール活用能力 を備える
主な機能の変化
OpenAI o3
- これまでで最も強力な 推論重視モデル
- コーディング、数学、科学、視覚分析 など複数領域で最先端の性能を達成
- Codeforces、SWE-bench、MMMU などのベンチマークで最高性能を記録
- 外部専門家の評価によると、o1より 重大なエラー率が20%低い
- プログラミング、コンサルティング、生物学、工学 などの分野で、アイデア生成と批判的評価に優れる
OpenAI o4-mini
- 速度とコスト効率に最適化された小型モデル
- 特に 数学、コーディング、視覚的問題解決能力 に優れる
- AIME 2024、2025ベンチマークで同クラス最強の性能
- o3-miniより STEM以外の分野 でも優れた性能
- 高い利用量と高速応答を求める環境 に適している
- 両モデルとも 命令理解度、応答の有用性、信頼性 において既存モデルより改善
- 会話の記憶およびパーソナライズされた応答提供能力も強化
マルチモーダル機能
- 画像も単なる認識ではなく 推論の一部として活用 可能
- ユーザーは ホワイトボードの写真、本の中の図式、手描きの図 などをアップロード可能
- モデルはぼやけた画像や歪んだ画像も認識・分析可能
- 回転、拡大、変換などの 画像処理もツールを通じて自動実行 可能
- テキストと視覚情報を統合した 複合的な問題解決能力 が向上
ツール活用中心の推論方式
- o3とo4-miniはChatGPTのすべてのツールにアクセス可能
- ユーザーが質問すると、必要なツール(ウェブ検索、ファイル分析、コード実行など)を自動で判断して使用
- 例: 「カリフォルニアの夏季電力使用量予測」という依頼に対し、ウェブ検索 → Pythonコード生成 → グラフ作成 をすべて連続で実行
- リアルタイム情報の活用、マルチステップ推論、モダリティ統合応答 が可能
効率的な推論性能
コスト対性能比較
- o3はo1より、o4-miniはo3-miniより 大幅なコスト効率改善 を達成
- AIME 2025数学大会の結果基準で、o3とo4-miniはいずれも 前世代より安価でより賢い
- 実際の利用環境でも より賢く、より安価な選択肢 になると期待される
安全性の改善
- 生物学的脅威、マルウェア、脱獄プロンプトなどへの拒否能力を高めるため、新しい学習データで再訓練
- モデル応答の危険性を自動検知する LLMベースの安全監視システム を導入
- 内部テストの結果、危険な会話を99%以上検知 することに成功
- 生物・化学、サイバーセキュリティ、AI自己改善などの危険領域で 高リスク水準未満 と評価
- 最新の Preparedness Framework基準 に基づいて安全性検証を完了
Codex CLI: ターミナルで使う高度な推論エージェント
- o3とo4-miniの推論能力を ターミナルでも利用可能 にするツール
- ユーザーは コード、画像、スクリーンショットなど をCLI経由で直接モデルに提供可能
- モデルはローカル環境のコードと連携して マルチモーダル推論 が可能
- オープンソースとして公開: github.com/openai/codex
- OpenAIはCodex CLIベースのプロジェクト向けに 100万ドルの支援プログラム も開始
利用方法
- ChatGPT Plus、Pro、Teamユーザー: o3、o4-mini、o4-mini-highモデルをすぐに利用可能
- EnterpriseおよびEducationユーザー: 1週間後から アクセス可能
- 無料ユーザーも「Think」オプションを選べば o4-miniを利用可能
- APIユーザーも本日から利用可能(組織認証が必要な場合あり)
- Responses APIでは 推論サマリー、関数呼び出し前後の推論保持、ウェブ検索ツールなど 多様な機能を提供予定
今後の方向性
- oシリーズの 専門的な推論能力 とGPTシリーズの 自然な会話能力 を融合予定
- 今後は ツールを能動的に活用しながら自然な会話を続けられるモデル へ発展していく予定
1件のコメント
Hacker Newsのコメント
Final Fantasy VIIのリバースエンジニアリングについて技術的な質問をしたが、AIは誤った情報を返した
NixOSで最新のWebStormをインストールするためにo3を使ったところ、NixOS VMを起動し、パッケージをダウンロードしてインストール手順を提示した
Claude 3.7はSWE-benchで依然として最高の性能を示している
C#でbase 62コンバーターを書く簡単な「チューリングテスト」をo4-mini-highでうまく実行できた
2025年8月の新月の日付を複数のAIに尋ねたが、ほとんどが誤った回答だった
o3とo4はウェブ検索ツールがないときにそれを認識し、回答を拒否した
Codex CLIがオープンソースとして提供されている
Sonnet 3.7やGemini Pro 2.5との比較はなかった
大規模な強化学習は、より多くの計算資源を使うほど性能が向上する傾向を示している
消費者として、どのモデルを使うべきか追い続けるのは疲れる