OpenAI、o3とo4-miniモデルを公開

(openai.com)

5 ポイント投稿者 GN⁺ 2025-04-17 | 1件のコメント | WhatsAppで共有

o3とo4-mini モデルは、ChatGPTの推論能力を大幅に向上
この2つのモデルは単純な質問応答を超えて、ツールの組み合わせ利用、視覚資料の分析、画像生成、Pythonコードの実行 など複雑な作業も実行可能
特に、ユーザーが質問した際に、どのツールをいつ使うべきかを 自ら判断して実行 できる能力を備える
複雑な問題解決、視覚的推論、マルチステップ分析に強く、より人間らしい会話スタイル を志向
o3は複雑な問題解決向け、o4-miniは高速かつ効率的な推論向けモデル であり、それぞれ高性能と高効率を同時に追求
画像とテキストを一体として考える マルチモーダル推論能力 と、高度な エージェント型ツール活用能力 を備える

主な機能の変化

OpenAI o3

これまでで最も強力な 推論重視モデル
コーディング、数学、科学、視覚分析 など複数領域で最先端の性能を達成
Codeforces、SWE-bench、MMMU などのベンチマークで最高性能を記録
外部専門家の評価によると、o1より 重大なエラー率が20%低い
プログラミング、コンサルティング、生物学、工学 などの分野で、アイデア生成と批判的評価に優れる

OpenAI o4-mini

速度とコスト効率に最適化された小型モデル
特に 数学、コーディング、視覚的問題解決能力 に優れる
AIME 2024、2025ベンチマークで同クラス最強の性能
o3-miniより STEM以外の分野 でも優れた性能
高い利用量と高速応答を求める環境 に適している

両モデルとも 命令理解度、応答の有用性、信頼性 において既存モデルより改善
会話の記憶およびパーソナライズされた応答提供能力も強化

マルチモーダル機能

画像も単なる認識ではなく 推論の一部として活用 可能
ユーザーは ホワイトボードの写真、本の中の図式、手描きの図 などをアップロード可能
モデルはぼやけた画像や歪んだ画像も認識・分析可能
回転、拡大、変換などの 画像処理もツールを通じて自動実行 可能
テキストと視覚情報を統合した 複合的な問題解決能力 が向上

ツール活用中心の推論方式

o3とo4-miniはChatGPTのすべてのツールにアクセス可能
ユーザーが質問すると、必要なツール（ウェブ検索、ファイル分析、コード実行など）を自動で判断して使用
例: 「カリフォルニアの夏季電力使用量予測」という依頼に対し、ウェブ検索 → Pythonコード生成 → グラフ作成 をすべて連続で実行
リアルタイム情報の活用、マルチステップ推論、モダリティ統合応答 が可能

効率的な推論性能

コスト対性能比較

o3はo1より、o4-miniはo3-miniより 大幅なコスト効率改善 を達成
AIME 2025数学大会の結果基準で、o3とo4-miniはいずれも 前世代より安価でより賢い
実際の利用環境でも より賢く、より安価な選択肢 になると期待される

安全性の改善

生物学的脅威、マルウェア、脱獄プロンプトなどへの拒否能力を高めるため、新しい学習データで再訓練
モデル応答の危険性を自動検知する LLMベースの安全監視システム を導入
内部テストの結果、危険な会話を99%以上検知 することに成功
生物・化学、サイバーセキュリティ、AI自己改善などの危険領域で 高リスク水準未満 と評価
最新の Preparedness Framework基準 に基づいて安全性検証を完了

Codex CLI: ターミナルで使う高度な推論エージェント

o3とo4-miniの推論能力を ターミナルでも利用可能 にするツール
ユーザーは コード、画像、スクリーンショットなど をCLI経由で直接モデルに提供可能
モデルはローカル環境のコードと連携して マルチモーダル推論 が可能
オープンソースとして公開: github.com/openai/codex
OpenAIはCodex CLIベースのプロジェクト向けに 100万ドルの支援プログラム も開始

利用方法

ChatGPT Plus、Pro、Teamユーザー: o3、o4-mini、o4-mini-highモデルをすぐに利用可能
EnterpriseおよびEducationユーザー: 1週間後から アクセス可能
無料ユーザーも「Think」オプションを選べば o4-miniを利用可能
APIユーザーも本日から利用可能（組織認証が必要な場合あり）
Responses APIでは 推論サマリー、関数呼び出し前後の推論保持、ウェブ検索ツールなど 多様な機能を提供予定

今後の方向性

oシリーズの 専門的な推論能力 とGPTシリーズの 自然な会話能力 を融合予定
今後は ツールを能動的に活用しながら自然な会話を続けられるモデル へ発展していく予定

1件のコメント

GN⁺ 2025-04-17

Hacker Newsのコメント

Final Fantasy VIIのリバースエンジニアリングについて技術的な質問をしたが、AIは誤った情報を返した
- AIはフォーラムやサイトから情報を探したものの、誤った詳細を作り上げてしまい、結果は不正確だった
- AIは自分が答えを知らないことを認識していたのに、自信満々に誤った値を提示した
- 正解を見つけられないなら、正直にそう言ってほしい
NixOSで最新のWebStormをインストールするためにo3を使ったところ、NixOS VMを起動し、パッケージをダウンロードしてインストール手順を提示した
- GUIテストまで実行したようで、非常に印象的だった
Claude 3.7はSWE-benchで依然として最高の性能を示している
- OpenAIのモデルも同程度の性能を示す可能性がある
C#でbase 62コンバーターを書く簡単な「チューリングテスト」をo4-mini-highでうまく実行できた
2025年8月の新月の日付を複数のAIに尋ねたが、ほとんどが誤った回答だった
- Claudeは特定の検索エンジンをブロックする方法については回答を拒否した
o3とo4はウェブ検索ツールがないときにそれを認識し、回答を拒否した
- 4oと4.1は誤った情報を提供した
- 新しいウェブ検索機能は便利で、不要なPythonスクリプトを削除できるようになった
Codex CLIがオープンソースとして提供されている
Sonnet 3.7やGemini Pro 2.5との比較はなかった
大規模な強化学習は、より多くの計算資源を使うほど性能が向上する傾向を示している
- この傾向がどこまで続くのかは疑問だ
消費者として、どのモデルを使うべきか追い続けるのは疲れる

OpenAI、o3とo4-miniモデルを公開

主な機能の変化

OpenAI o3

OpenAI o4-mini

マルチモーダル機能

ツール活用中心の推論方式

効率的な推論性能

コスト対性能比較

安全性の改善

Codex CLI: ターミナルで使う高度な推論エージェント

利用方法

今後の方向性

関連記事

1件のコメント

Hacker Newsのコメント