- 複雑な現実世界の開発作業を対象としたエージェント型コーディングモデルとして、Codex環境向けに最適化
- 長時間の作業でもコンテキスト圧縮によって文脈を維持し、リファクタリングやマイグレーションのような大規模変更に強化
- ネイティブWindows環境で全体的な性能改善を実現するとともに、スクリーンショット・図面・チャート・UIの解釈を支援するビジョン性能を強化
- SWE-Bench ProとTerminal-Bench 2.0で最高水準の性能を達成
- 防御目的のサイバーセキュリティ能力を大幅に高めつつ、悪用可能性を考慮して有料ユーザー優先提供と信頼ベースのアクセスを併用する配布方式を導入
概要
- GPT-5.2-Codexを新たに公開。複雑な現実世界のソフトウェアエンジニアリング作業を目標に設計されたモデル
- GPT-5.2をベースに、Codex環境でのエージェント型コーディング作業向けに最適化
- コンテキスト圧縮により長時間にわたる作業でも安定した性能を提供し、大規模なコード変更作業の能力を強化
- Windows環境で全体的な性能改善が行われ、サイバーセキュリティ能力も強化
ソフトウェアエンジニアリングの境界を広げる
- GPT-5.2の専門知識ベース業務における強みと、GPT-5.1-Codex-Maxのエージェント型コーディング・ターミナル活用性能をもとに開発されたモデル
- 長期コンテキスト理解、ツール呼び出しの安定性、正確性の改善、ネイティブコンパクションを基盤に、長時間のコーディング作業で信頼できるパートナーとして機能することを目標とする
- 推論過程でトークン効率を維持する方向性も含まれる
- ビジョン性能の強化により、コーディングセッション中に共有されるスクリーンショット、技術図面、チャート、UI画面の解釈精度を向上
- GPT-5.1-Codex-Maxで導入された機能を基盤に、ネイティブWindowsでもエージェント型コーディングをより効果的かつ安定的に実行
ベンチマーク性能
- SWE-Bench ProとTerminal-Bench 2.0で最高水準の性能を達成
- SWE-Bench Proは、コードリポジトリが提供された状態で現実的なソフトウェアエンジニアリング課題を解決するパッチを生成する評価
- Terminal-Bench 2.0は、実際のターミナル環境でAIエージェントの性能をテストし、コードのコンパイル、モデル訓練、サーバー設定作業を含む
現実世界のサイバーセキュリティ
- 現代社会の中核システムと機微データを保護するため、強力なサイバーセキュリティは不可欠
- 脆弱性は長期間表面化しないことがあり、発見・検証・修正の過程は、ツールを備えたエンジニアと独立したセキュリティ研究者コミュニティに大きく依存
- 2025年12月11日にReactチームがReactサーバーコンポーネントベースのアプリに影響するセキュリティ脆弱性3件を公開した事例では、脆弱性そのものだけでなく発見過程も注目を集めた
-
React脆弱性発見事例
- Stripe傘下企業Privyのセキュリティ研究者Andrew MacPhersonが、Codex CLIでGPT-5.1-Codex-Maxを活用してReact2Shellの分析を実施
- ローカルテスト環境の構築、攻撃面の分析、異常入力ベースのファジングなど、標準的なセキュリティワークフローでCodexを活用
- React2Shellの再現過程で予期しない挙動が確認され、1週間でそれまで未公知だった脆弱性3件の発見につながった
- 発見された脆弱性は責任ある形でReactチームへ開示された
- セキュリティ研究者の脆弱性検証プロセスをどれほど短縮できるかを示す事例として、Codexセッション共有も含まれた
継続的に進化するサイバーセキュリティ能力
- GPT-5-Codexからサイバーセキュリティ能力が大きく向上し始め、GPT-5.1-Codex-Maxで大きな飛躍を遂げ、GPT-5.2-Codexでも明確な改善が確認された
- 今後のモデルも同じ流れをたどると見込まれ、準備状況評価フレームワークにおいてサイバーセキュリティ能力が「高い」段階に到達する可能性を前提に、計画と評価を進めている
- GPT-5.2-Codexはまだ「高い」段階には達していないが、今後基準を超えるモデルも視野に入れて準備を継続している
結論
- GPT-5.2-Codexは、ソフトウェアエンジニアリングとサイバーセキュリティ領域において、高度なAIの貢献の仕方が拡大している流れを示す
- 開発者とセキュリティ責任者が複雑で長期的な課題を解決できるよう支援すると同時に、責任あるセキュリティ研究ツールも一段と強化
1件のコメント
Hacker Newsの反応
OpenAI関係者が見ているなら、どうか 推論能力(reasoning) には手を入れないでほしい
Codexはコードや数学の バグや不整合 を見つけるのが本当に得意
Claude Codeが「コード生成」に強いなら、Codex/GPT5.xは問題検出では圧倒的
速度より品質が重要だと思う
最初はCodexを疑っていたが、今ではあらゆるコーディング作業をCodexから始めている
完璧ではないが、リファクタリング や新規プロジェクトの立ち上げ、慣れない技術を扱う場面などで驚くような成果を見せる
特に 先延ばし(procrastination) を減らしてくれる。途方に暮れるような大きな作業でもCodexに投げれば良い出発点を作ってくれる
Codex 5.2は品質が大きく向上していて、今ではコードを書くこと自体を任せている
計画立案や設計の議論まで一緒に進めていると、自分でコードを書く理由がほとんどなくなる
結局 客観的な性能評価 が難しい点が興味深い
ただし鍵になるのは フィードバックループの速さ。ビルドとテストが速いほど、エージェント型コーディングツールの効率は上がる
Agents.md のような明確な指針が役に立つ
Claude CodeからCodex CLIに移行した後、コンテナベースの Codex実行環境 を構築した
タイマー、ファイルトリガー、API呼び出し、CLIモードなどさまざまな方法で実行できる
codex-container には300個以上のMCPツールが含まれている
クローリング、Google検索、Gmail/GCal/GDrive、Slack、埋め込み、文字起こしなど幅広い機能をサポートする
セキュリティ上危険な作業は コンテナ分離 で安全にテストしている
gnosis-crawl でヘッドレスブラウザのクローリングも可能
自分の経験では、GPTモデルは バックエンド開発 ではClaudeよりはるかに適している
遅いがロジックが明快で保守性が高い
自分はClaudeで計画を立て、Codexで実行し、最後にまたClaudeでコードレビューする流れを使っている
Codex CLIがnpmと同時にhomebrewにも更新されるといいのだが
Claudeは依然として 不要な飾り(fluff) が多く、過剰設計になりがち
Claudeは細かい部分を指摘するが、Codexは本当に重要な問題を見つけてくれる
セキュリティの観点から見ると、OpenAIのモデルは 攻撃的(offensive) な作業を過度に制限していて残念だ
防御のためには、ある程度の攻撃的シミュレーションが必要だと思う
信頼できる専門家にだけアクセスを認めるのは合理的なアプローチだと思う
「サイバーセキュリティ」を前面に押し出しているのが興味深い
すでに セキュリティ分析の自動化 は臨界点を超えており、モデルの進歩より 反復作業の自動化 のほうが重要だと思う
脆弱性分析の大半は自動化可能な単純作業であり、それを取り除けば人間は創造的な分析に集中できる
自分にとってCodexは常に ベースモデルより性能が低い
CLIではコードを書こうとするのが早すぎる
単に質問しただけなのにファイルを修正しようとするので不便だ
今は .md ファイルだけを編集するよう依頼すれば、ある程度コントロールできる
招待制で セキュリティ研究用モデルへのアクセス を認める方針は合理的だと思う
「安全性アライメント」が過剰だと、セキュリティ分析能力が落ちる可能性がある
KYC手続きを経るだけで、前向きな研究成果を出しつつリスク露出を減らせるはずだ
「デュアルユース(dual-use)」のリスクとは、新しい攻撃手法そのものより 実行のハードルを下げること を意味する
同じ機能でも、防御側には脆弱性分析を助ける一方で、攻撃側には自動化された攻撃ツールになり得る
だからこそ 配布統制とログ記録 が重要だ
GPT‑5.1をVSCodeのCodexプラグインで使ってみたが、本当に 魔法のような体験 だった
5.2ではまだ大きな違いは感じていないが、CursorやKilo Code並みに機能が拡張されればさらに良くなりそうだ
以前はOpenAIは遅れていると思っていたが、5.1はGeminiよりはるかに優れている