- GPT-5.2-Codexのコーディング性能とGPT-5.2の推論・専門知識を1つのモデルに統合し、25%高速化を実現
- Codexのエージェント的な作業範囲を長時間実行タスクまで拡張し、作業途中でも方針を変えたりフィードバックを反映したりできるリアルタイム対話型コラボレーションをCodexアプリに統合
- 自己学習プロセスのデバッグ、デプロイ管理、評価診断に初期バージョンが直接活用された、初の自己開発参加モデル
- SWE-Bench Pro、Terminal-Bench 2.0、OSWorldなど主要ベンチマークで業界最高水準の性能を記録し、従来モデルより少ないトークンで動作
- コード作成を超えて、プレゼンテーション、スプレッドシート、データ分析などソフトウェアライフサイクル全体の知識労働を支援
概要
- GPT-5.3-Codexは「最も高い能力を持つエージェント型コーディングモデル」
- GPT-5.2-Codexの最先端コーディング性能とGPT-5.2の推論・専門知識能力を1つのモデルに統合し、速度を25%向上
- リサーチ・ツール利用・複雑な実行を含む長期タスクを実行するよう設計され、作業中でもコンテキストを失わずに調整可能
- 初期バージョンを使って自己学習・デプロイ・評価診断に関与し、「自らの開発を加速した」初のモデル
- Codexの役割を「コード作成・レビュー」から「コンピュータ上で開発者・専門家が行うほぼすべての作業」へ拡大
フロンティア級のエージェント能力
-
コーディング性能
- SWE-Bench Pro(実際のソフトウェアエンジニアリング評価)で最高性能を達成。このベンチマークはPythonのみをテストするSWE-Bench Verifiedと異なり、4言語を対象とし、汚染耐性が高く産業関連性も大きい
- Terminal-Bench 2.0でも従来の最高性能を大幅に上回り、コーディングエージェントに必要なターミナル技能を測定
- 従来モデル比でより少ないトークンで同じタスクを実行可能
-
Web開発
- 最先端のコーディング能力、美的センスの改善、圧縮技術の組み合わせにより、複雑なゲームやアプリを数日にわたってゼロから構築可能
- Web開発および長期エージェント能力テストのため、レーシングゲームとダイビングゲームの2種類を制作
- レーシングゲーム: さまざまなレーサー、8つのマップ、スペースバーで使うアイテムを含む
- ダイビングゲーム: 多様なサンゴ礁の探索、魚図鑑の収集、酸素・水圧・危険要素の管理
- "develop web game"スキルと"fix the bug"、"improve the game"のような事前設定済みの汎用後続プロンプトを使い、数百万トークンにわたって自律的に反復改善
- 日常的なWebサイト制作ではGPT-5.2-Codexよりユーザー意図をよく理解し、単純または不十分なプロンプトでもより多くの機能と妥当なデフォルトを自動適用
- ランディングページ比較例: GPT-5.3-Codexは年間プランを割引済みの月額価格として自動表示し、3つのユーザー引用を含む自動切り替え式おすすめカルーセルを生成して、より完成度の高い成果物を提供
-
コーディング以外の能力
- ソフトウェアエンジニア、デザイナー、プロダクトマネージャー、データサイエンティストが行うデバッグ、デプロイ、モニタリング、PRD作成、コピー編集、ユーザーリサーチ、テスト、メトリクス分析など、ソフトウェアライフサイクル全体を支援
- スライドデッキ作成、シートデータ分析などソフトウェア以外の領域まで拡張
- GDPval(44職種の明確に定義された知識労働タスクを測定する評価)でGPT-5.2と同等の70.9%を達成
- プレゼンテーション、スプレッドシートなど実務の成果物を含む
- 財務アドバイザリー用スライド、小売向け研修文書、NPV分析スプレッドシート、ファッションプレゼンテーションPDFなど多様な成果物の例を提示
- OSWorld-Verified(視覚的デスクトップ環境で生産性タスクを実行するエージェント型コンピュータ利用ベンチマーク)で64.7%を達成し、従来のGPTモデル(38.2%)から大幅上昇
インタラクティブな協業者
- モデル能力が強化されるにつれ、エージェントができることよりも、人間が並列で動く多数のエージェントをどれだけ簡単に指示・監督できるかへと中核課題が移行
- Codexアプリがエージェント管理と指示を容易にし、GPT-5.3-Codexではより高い対話性を提供
- 作業中の重要な決定と進行状況を頻繁に更新し、ユーザーは最終結果を待たずにリアルタイムで質問し、アプローチを議論し、方向修正できる
- 自分が行っている作業を説明し、フィードバックに応答し、最初から最後までユーザーをループに参加させる
- 設定パス: Settings > General > Follow-up behavior で、モデル作業中のステアリングを有効化
Codexを活用したGPT-5.3-Codexの学習とデプロイ
- OpenAI全体にわたる数か月〜数年の研究プロジェクトの上に、最近の急速なCodex改善が構築されている
- OpenAIの多くの研究者とエンジニアは、現在の働き方が2か月前と根本的に異なると述べている
- 初期バージョンのGPT-5.3-Codexも優れた能力を示し、チームはこの初期バージョンを活用して後続バージョンの学習改善とデプロイを支援した
-
研究チームの活用事例
- 今回のリリースの学習ランの監視とデバッグにCodexを使用
- インフラ問題のデバッグにとどまらず、学習プロセス全体のパターン追跡、対話品質の深い分析、修正提案、旧モデルとの挙動差の精密把握のためのリッチアプリケーション構築
-
エンジニアリングチームの活用事例
- GPT-5.3-Codex向けハーネスの最適化と適応にCodexを活用
- ユーザーに影響する奇妙なエッジケースが発生した際、Codexでコンテキストレンダリングのバグを特定し、低いキャッシュヒット率の根本原因を分析
- リリース期間中のトラフィック急増に対応し、GPUクラスタの動的スケーリングとレイテンシ安定化に継続活用
-
アルファテストでの活用事例
- ある研究者がGPT-5.3-Codexが1ターンあたりどれだけ追加作業を行うかと、生産性差を理解しようとした
- GPT-5.3-Codexが明確化質問の頻度、肯定・否定応答、作業進捗を推定する簡単な正規表現分類器を複数考案し、セッションログ全体に大規模実行した後、結論レポートを生成
- Codexで構築した人々の満足度はより高く、エージェントが意図をよりよく理解し、1ターンあたりの進捗が大きく、明確化質問も減少
-
データパイプライン構築
- アルファテストデータが従来モデルと大きく異なり、異常で直感に反する結果が多数発生
- データサイエンティストがGPT-5.3-Codexとともに新しいデータパイプラインを構築し、標準的なダッシュボードツールよりはるかに豊かな可視化を実施
- Codexと結果を共同分析し、数千のデータポイントに関する重要インサイトを3分以内に要約
サイバーセキュリティのフロンティア確保
- ここ数か月でサイバーセキュリティ課題におけるモデル性能が有意に向上し、開発者とセキュリティ専門家の双方に恩恵
- これと並行して、防御的利用と広範なエコシステム回復力を支えるための強化されたサイバーセキュリティ安全策を準備
- Preparedness Frameworkの下で、サイバーセキュリティ関連課題についてHigh等級に分類された初のモデルであり、ソフトウェア脆弱性の特定を直接学習した初のモデル
- エンドツーエンドのサイバー攻撃自動化が可能であるという確定的証拠はないが、予防的アプローチを取り、これまでで最も包括的なサイバーセキュリティ安全スタックを展開
- 安全学習、自動監視、高度機能への信頼ベースアクセス、脅威インテリジェンスを含む執行パイプライン
- サイバーセキュリティの本質的なデュアルユース特性を踏まえ、防御側の脆弱性発見・修正能力を加速しつつ、悪用は遅らせるという証拠ベースの反復的アプローチを採用
-
防御研究およびエコシステム保護プログラム
- Trusted Access for Cyberパイロットプログラムを開始し、サイバー防御研究の加速を目的とする
- セキュリティ研究エージェントAardvarkの非公開ベータを拡大、Codex Security製品群の最初の提供物
- オープンソースメンテナーと協力し、広く使われるプロジェクト(例: Next.js)に無料のコードベーススキャンを提供
- セキュリティ研究者がCodexを使って先週公開された脆弱性(CVE-2025-59471, CVE-2025-59472)を発見
- 2023年開始の100万ドル規模サイバーセキュリティ助成プログラムを基盤に、最も強力なモデルを活用したサイバー防御加速のため1,000万ドル分のAPIクレジットを追加投資
- 特にオープンソースソフトウェアおよび重要インフラシステムが対象
- 善意のセキュリティ研究に参加する組織は、Cybersecurity Grant Programを通じてAPIクレジットと支援を申請可能
提供状況と詳細
- GPT-5.3-Codexは有料ChatGPTプランで利用可能で、Codexがサポートされるすべての場所(アプリ、CLI、IDE拡張、Web)で使用可能
- APIアクセスは安全に有効化するため準備中
- インフラおよび推論スタックの改善により、Codexユーザー向けに25%高速で動作し、より速い対話と結果を提供
- NVIDIA GB200 NVL72システムで共同設計、学習、サービング
今後の方向性
- Codexはコード作成を超え、コードをツールとして使ってコンピュータを操作し、作業を最初から最後まで完了する方向へ進んでいる
- コーディングエージェントのフロンティアを拡張することで、ソフトウェアの構築・デプロイだけでなく、研究、分析、複雑な課題実行などより広範な知識労働の領域まで解放
- 最高のコーディングエージェントから出発し、コンピュータ上の汎用コラボレーターへと進化し、構築できる対象と構築できる人の範囲を広げる
Appendix: ベンチマーク数値
- すべての評価はxhigh reasoning effortで実行
- SWE-Bench Pro(Public): GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
- Terminal-Bench 2.0: GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
- OSWorld-Verified: GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
- GDPval(勝利または引き分け): GPT-5.3-Codex 70.9% / GPT-5.2 70.9%(high)
- Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
- SWE-Lancer IC Diamond: GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%
2件のコメント
昔はClaudeのほうを好んでいましたが、最近はCodexのほうが気に入っています。iOSとAOSのように相互補完的に発展していくことを期待しています。
Hacker Newsのコメント
GPT‑5.3 CodexとOpus 4.6が哲学的に異なる方向へ進化しているのが興味深い
Codexは人間が途中で介入しながら一緒に作業するインタラクティブな協業相手として設計されている一方、Opusはより自律的で計画的なシステムとして、人間の介入を最小化している
これは実際の開発者たちがLLMベースのコーディングをどう捉えているかという2つの視点――人間中心の制御 vs 完全委任――を反映しているように見える
今後モデルがこうした哲学的分化に沿って最適化されるのか、それとも新しいアプローチが登場するのか気になる
Codexのほうが答えを出す前にずっと長く考える傾向がある
人間がループの中にいればLLMの問題の大半を避けられるし、小さなコード単位でレビューするやり方は効率的だ
Codexが反復的な作業を処理してくれれば、開発者は中核ロジックに集中できる
完全自律型のアプローチは長期的にコード品質が落ちるため、大規模コードベースには向いていない
リクエストを投げるとコンテナ環境で自動実行され、その後はチャットでしか追加入力できなかった
Codexはますます自律的になり、Opusは協調的になってきているようだ
結局のところ、状況次第でどちらのアプローチも有用に使われる可能性が高い
だから5.2バージョンはOpus 4.5より安定していた
AnthropicはGPT‑5.3‑Codexとの比較を避けるために急いでOpus 4.6を公開したように見える
Terminal‑Bench 2.0のスコアはOpus 4.6が65.4、GPT‑5.3‑Codexが77.3だ
それでもCodex 5.2は複雑な作業で最も優れていたし、5.3に期待している
GPT‑5.2 Codexは$3244、Claude Opus 4.5は$1485程度
ARC AGI 2の結果を見ると、汎化は不足しているようだ
Claudeがコーディングで優位だという主張には疑問がある
GPT‑5.3‑Codexが自分自身を開発に活用した最初のモデルだという点が印象的だ
Codexチームは初期バージョンで自前の学習パイプラインをデバッグしたという
Claude Codeが成長した理由も、こうしたdogfooding文化のおかげだと思う
今や「漸進的発展(soft take‑off)」が可能かどうかを改めて考えさせられる
GPT‑5.3‑Codexはサイバーセキュリティ関連タスクで高性能(high capability)モデルに分類されている
脆弱性検出を直接学習しているが、完全な攻撃自動化の証拠はまだない
ただ、セキュリティフレームワークは時代遅れだと思う
今後はCodexが書いたコードそのものがセキュリティ脅威の新たな攻撃面になる可能性が高い
Codexは基本的に安全なコードを生成するよう設計されるべきだ
関連記事: NBC Newsの報道
Anthropicと同様に、「安全研究」という装いの下で技術力を誇示している感じだ
こうしたミスが今後も続くのか気になる
以前はAI研究所が同時発表を避けるよう調整していたのに、
今では30分おきに競うように発表している
Demisは政治的な争いには弱いが、性能で勝負しそうだ
Elon、Sam、Darioはすでに政治的な駆け引きに長けている
2026年はAI業界にとってドラマチックな年になりそうだ
OpenAIの10時発表に合わせてAnthropicとGoogleが対抗リリースを行ったこともあった
GPT‑5.3‑Codexがウェブゲームを自律的に改善したという発表を見て興味を持った
ただし比較実験のプロンプト数やトークン数が公開されておらず残念だ
以前私が作ったFactorioのウェブクローンと比べてみたい
こんなふうにモデルを活用するとは思っていなかった
ここ数年ずっと「AIで生産性が100倍向上」という話を聞いている
しかし実際にLLMが主導して作った、新しくて信頼できるプログラムがあるのか気になる
LLMも既存の問題解決を速くするだけで、まったく新しい問題を解くわけではない
たとえばUIカード配置の問題でGeminiが極座標ベースのアプローチを提案してくれて大いに助かった
100倍ではなくても、2倍の生産性向上は実感している
関連スレッド: vibe codingの事例
だから「すでに解決済みの問題」という批判はあまり意味がない
3回も存在しないフラグを幻覚した
ChatGPT 5.2もffmpegスクリプトを作るのに何度も修正が必要だった
Windowsで改行をちゃんと扱える日が来たら、それがAGIなのかもしれない
単にコードベースが大きいという理由は一時的な限界にすぎない
進歩を嫌う人たちの不満のようにも聞こえる
Terminal Bench 2.0の結果
スコアより、実際のコーディング体験の「感触」のほうが重要だ
開発者たちがこの変化に脅威を感じているのか気になる
正直、私はそう感じる
競技プログラマには脅威でも、一般の開発者にはそこまでではない
AGIが来るまでは完全自動化は不可能だと思う
周囲ではClaudeユーザーのほうがCodexよりずっと多い
しかしCodexは利用上限と料金プランの面ではるかに寛大だ
数か月間$20プランで使っても、ほとんど上限に達しない
こうした実用的な違いのほうがコーディング品質より重要だと感じる
以前はGH CopilotではClaudeのほうが良かったが、
Codexは自律性が高く、vibe‑codingにより適しており、
TwitterやLinkedInなどでの宣伝効果によってユーザー層が広がったようだ
品質差が分からないなら、当然安いほうを選ぶ
プラン変更も自由で、利用体験は非常に満足度が高い