5 ポイント 投稿者 GN⁺ 2025-04-17 | 1件のコメント | WhatsAppで共有
  • o3とo4-mini モデルは、ChatGPTの推論能力を大幅に向上
  • この2つのモデルは単純な質問応答を超えて、ツールの組み合わせ利用視覚資料の分析画像生成Pythonコードの実行 など複雑な作業も実行可能
  • 特に、ユーザーが質問した際に、どのツールをいつ使うべきかを 自ら判断して実行 できる能力を備える
  • 複雑な問題解決、視覚的推論、マルチステップ分析に強く、より人間らしい会話スタイル を志向
  • o3は複雑な問題解決向け、o4-miniは高速かつ効率的な推論向けモデル であり、それぞれ高性能と高効率を同時に追求
  • 画像とテキストを一体として考える マルチモーダル推論能力 と、高度な エージェント型ツール活用能力 を備える

主な機能の変化

OpenAI o3

  • これまでで最も強力な 推論重視モデル
  • コーディング、数学、科学、視覚分析 など複数領域で最先端の性能を達成
  • Codeforces、SWE-bench、MMMU などのベンチマークで最高性能を記録
  • 外部専門家の評価によると、o1より 重大なエラー率が20%低い
  • プログラミング、コンサルティング、生物学、工学 などの分野で、アイデア生成と批判的評価に優れる

OpenAI o4-mini

  • 速度とコスト効率に最適化された小型モデル
  • 特に 数学、コーディング、視覚的問題解決能力 に優れる
  • AIME 2024、2025ベンチマークで同クラス最強の性能
  • o3-miniより STEM以外の分野 でも優れた性能
  • 高い利用量と高速応答を求める環境 に適している
  • 両モデルとも 命令理解度、応答の有用性、信頼性 において既存モデルより改善
  • 会話の記憶およびパーソナライズされた応答提供能力も強化

マルチモーダル機能

  • 画像も単なる認識ではなく 推論の一部として活用 可能
  • ユーザーは ホワイトボードの写真、本の中の図式、手描きの図 などをアップロード可能
  • モデルはぼやけた画像や歪んだ画像も認識・分析可能
  • 回転、拡大、変換などの 画像処理もツールを通じて自動実行 可能
  • テキストと視覚情報を統合した 複合的な問題解決能力 が向上

ツール活用中心の推論方式

  • o3とo4-miniはChatGPTのすべてのツールにアクセス可能
  • ユーザーが質問すると、必要なツール(ウェブ検索、ファイル分析、コード実行など)を自動で判断して使用
  • 例: 「カリフォルニアの夏季電力使用量予測」という依頼に対し、ウェブ検索 → Pythonコード生成 → グラフ作成 をすべて連続で実行
  • リアルタイム情報の活用マルチステップ推論モダリティ統合応答 が可能

効率的な推論性能

コスト対性能比較

  • o3はo1より、o4-miniはo3-miniより 大幅なコスト効率改善 を達成
  • AIME 2025数学大会の結果基準で、o3とo4-miniはいずれも 前世代より安価でより賢い
  • 実際の利用環境でも より賢く、より安価な選択肢 になると期待される

安全性の改善

  • 生物学的脅威、マルウェア、脱獄プロンプトなどへの拒否能力を高めるため、新しい学習データで再訓練
  • モデル応答の危険性を自動検知する LLMベースの安全監視システム を導入
  • 内部テストの結果、危険な会話を99%以上検知 することに成功
  • 生物・化学、サイバーセキュリティ、AI自己改善などの危険領域で 高リスク水準未満 と評価
  • 最新の Preparedness Framework基準 に基づいて安全性検証を完了

Codex CLI: ターミナルで使う高度な推論エージェント

  • o3とo4-miniの推論能力を ターミナルでも利用可能 にするツール
  • ユーザーは コード、画像、スクリーンショットなど をCLI経由で直接モデルに提供可能
  • モデルはローカル環境のコードと連携して マルチモーダル推論 が可能
  • オープンソースとして公開: github.com/openai/codex
  • OpenAIはCodex CLIベースのプロジェクト向けに 100万ドルの支援プログラム も開始

利用方法

  • ChatGPT Plus、Pro、Teamユーザー: o3、o4-mini、o4-mini-highモデルをすぐに利用可能
  • EnterpriseおよびEducationユーザー: 1週間後から アクセス可能
  • 無料ユーザーも「Think」オプションを選べば o4-miniを利用可能
  • APIユーザーも本日から利用可能(組織認証が必要な場合あり)
  • Responses APIでは 推論サマリー、関数呼び出し前後の推論保持、ウェブ検索ツールなど 多様な機能を提供予定

今後の方向性

  • oシリーズの 専門的な推論能力 とGPTシリーズの 自然な会話能力 を融合予定
  • 今後は ツールを能動的に活用しながら自然な会話を続けられるモデル へ発展していく予定

1件のコメント

 
GN⁺ 2025-04-17
Hacker Newsのコメント
  • Final Fantasy VIIのリバースエンジニアリングについて技術的な質問をしたが、AIは誤った情報を返した

    • AIはフォーラムやサイトから情報を探したものの、誤った詳細を作り上げてしまい、結果は不正確だった
    • AIは自分が答えを知らないことを認識していたのに、自信満々に誤った値を提示した
    • 正解を見つけられないなら、正直にそう言ってほしい
  • NixOSで最新のWebStormをインストールするためにo3を使ったところ、NixOS VMを起動し、パッケージをダウンロードしてインストール手順を提示した

    • GUIテストまで実行したようで、非常に印象的だった
  • Claude 3.7はSWE-benchで依然として最高の性能を示している

    • OpenAIのモデルも同程度の性能を示す可能性がある
  • C#でbase 62コンバーターを書く簡単な「チューリングテスト」をo4-mini-highでうまく実行できた

  • 2025年8月の新月の日付を複数のAIに尋ねたが、ほとんどが誤った回答だった

    • Claudeは特定の検索エンジンをブロックする方法については回答を拒否した
  • o3とo4はウェブ検索ツールがないときにそれを認識し、回答を拒否した

    • 4oと4.1は誤った情報を提供した
    • 新しいウェブ検索機能は便利で、不要なPythonスクリプトを削除できるようになった
  • Codex CLIがオープンソースとして提供されている

  • Sonnet 3.7やGemini Pro 2.5との比較はなかった

  • 大規模な強化学習は、より多くの計算資源を使うほど性能が向上する傾向を示している

    • この傾向がどこまで続くのかは疑問だ
  • 消費者として、どのモデルを使うべきか追い続けるのは疲れる