7 ポイント 投稿者 GN⁺ 2025-12-19 | 1件のコメント | WhatsAppで共有
  • 複雑な現実世界の開発作業を対象としたエージェント型コーディングモデルとして、Codex環境向けに最適化
  • 長時間の作業でもコンテキスト圧縮によって文脈を維持し、リファクタリングやマイグレーションのような大規模変更に強化
  • ネイティブWindows環境で全体的な性能改善を実現するとともに、スクリーンショット・図面・チャート・UIの解釈を支援するビジョン性能を強化
  • SWE-Bench ProとTerminal-Bench 2.0で最高水準の性能を達成
  • 防御目的のサイバーセキュリティ能力を大幅に高めつつ、悪用可能性を考慮して有料ユーザー優先提供と信頼ベースのアクセスを併用する配布方式を導入

概要

  • GPT-5.2-Codexを新たに公開。複雑な現実世界のソフトウェアエンジニアリング作業を目標に設計されたモデル
  • GPT-5.2をベースに、Codex環境でのエージェント型コーディング作業向けに最適化
  • コンテキスト圧縮により長時間にわたる作業でも安定した性能を提供し、大規模なコード変更作業の能力を強化
  • Windows環境で全体的な性能改善が行われ、サイバーセキュリティ能力も強化

ソフトウェアエンジニアリングの境界を広げる

  • GPT-5.2の専門知識ベース業務における強みと、GPT-5.1-Codex-Maxのエージェント型コーディング・ターミナル活用性能をもとに開発されたモデル
  • 長期コンテキスト理解、ツール呼び出しの安定性、正確性の改善、ネイティブコンパクションを基盤に、長時間のコーディング作業で信頼できるパートナーとして機能することを目標とする
  • 推論過程でトークン効率を維持する方向性も含まれる
  • ビジョン性能の強化により、コーディングセッション中に共有されるスクリーンショット、技術図面、チャート、UI画面の解釈精度を向上
  • GPT-5.1-Codex-Maxで導入された機能を基盤に、ネイティブWindowsでもエージェント型コーディングをより効果的かつ安定的に実行

ベンチマーク性能

  • SWE-Bench ProとTerminal-Bench 2.0で最高水準の性能を達成
    • SWE-Bench Proは、コードリポジトリが提供された状態で現実的なソフトウェアエンジニアリング課題を解決するパッチを生成する評価
    • Terminal-Bench 2.0は、実際のターミナル環境でAIエージェントの性能をテストし、コードのコンパイル、モデル訓練、サーバー設定作業を含む

現実世界のサイバーセキュリティ

  • 現代社会の中核システムと機微データを保護するため、強力なサイバーセキュリティは不可欠
  • 脆弱性は長期間表面化しないことがあり、発見・検証・修正の過程は、ツールを備えたエンジニアと独立したセキュリティ研究者コミュニティに大きく依存
  • 2025年12月11日にReactチームがReactサーバーコンポーネントベースのアプリに影響するセキュリティ脆弱性3件を公開した事例では、脆弱性そのものだけでなく発見過程も注目を集めた
  • React脆弱性発見事例

    • Stripe傘下企業Privyのセキュリティ研究者Andrew MacPhersonが、Codex CLIでGPT-5.1-Codex-Maxを活用してReact2Shellの分析を実施
    • ローカルテスト環境の構築、攻撃面の分析、異常入力ベースのファジングなど、標準的なセキュリティワークフローでCodexを活用
    • React2Shellの再現過程で予期しない挙動が確認され、1週間でそれまで未公知だった脆弱性3件の発見につながった
    • 発見された脆弱性は責任ある形でReactチームへ開示された
    • セキュリティ研究者の脆弱性検証プロセスをどれほど短縮できるかを示す事例として、Codexセッション共有も含まれた

継続的に進化するサイバーセキュリティ能力

  • GPT-5-Codexからサイバーセキュリティ能力が大きく向上し始め、GPT-5.1-Codex-Maxで大きな飛躍を遂げ、GPT-5.2-Codexでも明確な改善が確認された
  • 今後のモデルも同じ流れをたどると見込まれ、準備状況評価フレームワークにおいてサイバーセキュリティ能力が「高い」段階に到達する可能性を前提に、計画と評価を進めている
  • GPT-5.2-Codexはまだ「高い」段階には達していないが、今後基準を超えるモデルも視野に入れて準備を継続している

結論

  • GPT-5.2-Codexは、ソフトウェアエンジニアリングとサイバーセキュリティ領域において、高度なAIの貢献の仕方が拡大している流れを示す
  • 開発者とセキュリティ責任者が複雑で長期的な課題を解決できるよう支援すると同時に、責任あるセキュリティ研究ツールも一段と強化

1件のコメント

 
GN⁺ 2025-12-19
Hacker Newsの反応
  • OpenAI関係者が見ているなら、どうか 推論能力(reasoning) には手を入れないでほしい
    Codexはコードや数学の バグや不整合 を見つけるのが本当に得意
    Claude Codeが「コード生成」に強いなら、Codex/GPT5.xは問題検出では圧倒的
    速度より品質が重要だと思う

    • こうした精密な問題検出が1日に数回だけ必要な場合、月20ドルのプランで十分なのか、それとも200ドルのプランが必要なのか気になる
    • 「品質優先」は結局「コスト上昇」を意味し、その追加コストを顧客に転嫁しにくいのが問題だと思う
    • 自分もClaude Codeを主に使っているが、コードレビュー用にCodex を立ち上げておくと、フロー分析や微妙なバグ検出では本当に圧倒的
    • 「高度な推論モード」がコードの細かなバグを拾うのを見ると驚かされる
    • 問題はCodexが正確すぎて、自分が直すべき メモリバグ を延々と指摘してくること。そのせいで作業速度が落ちる
  • 最初はCodexを疑っていたが、今ではあらゆるコーディング作業をCodexから始めている
    完璧ではないが、リファクタリング や新規プロジェクトの立ち上げ、慣れない技術を扱う場面などで驚くような成果を見せる
    特に 先延ばし(procrastination) を減らしてくれる。途方に暮れるような大きな作業でもCodexに投げれば良い出発点を作ってくれる

    • 完全に同感。自分も最初は懐疑的だったが、Opus 4.5を使って衝撃を受けた
      Codex 5.2は品質が大きく向上していて、今ではコードを書くこと自体を任せている
      計画立案や設計の議論まで一緒に進めていると、自分でコードを書く理由がほとんどなくなる
    • 上のスレッドではCodexはデバッグが弱いと言われているが、別スレッドでは正反対の意見もある
      結局 客観的な性能評価 が難しい点が興味深い
    • Codexが先延ばしを減らしてくれるという話には共感する
      ただし鍵になるのは フィードバックループの速さ。ビルドとテストが速いほど、エージェント型コーディングツールの効率は上がる
      Agents.md のような明確な指針が役に立つ
    • モデル性能を比較するとき、プロンプトや作業の種類、モデルのバージョンなど変数が多すぎて、定性的評価 が難しいと感じる
    • 自分もClaude Codeを使ってみたが、Codexと比較した経験が気になる
  • Claude CodeからCodex CLIに移行した後、コンテナベースの Codex実行環境 を構築した
    タイマー、ファイルトリガー、API呼び出し、CLIモードなどさまざまな方法で実行できる
    codex-container には300個以上のMCPツールが含まれている
    クローリング、Google検索、Gmail/GCal/GDrive、Slack、埋め込み、文字起こしなど幅広い機能をサポートする
    セキュリティ上危険な作業は コンテナ分離 で安全にテストしている
    gnosis-crawl でヘッドレスブラウザのクローリングも可能

    • 良さそうだが、依存関係としてPowerShellをインストールしなければならないなら使わないと思う
    • MCPツールは一括で動くのではなく、ライブラリ形式 で必要なものだけ使う構成なのか気になる
  • 自分の経験では、GPTモデルは バックエンド開発 ではClaudeよりはるかに適している
    遅いがロジックが明快で保守性が高い
    自分はClaudeで計画を立て、Codexで実行し、最後にまたClaudeでコードレビューする流れを使っている
    Codex CLIがnpmと同時にhomebrewにも更新されるといいのだが

    • GPT‑5は初めて、修正なしでそのままデプロイ可能なコードを作ってくれた
      Claudeは依然として 不要な飾り(fluff) が多く、過剰設計になりがち
    • 自分の経験では、CodexはClaudeより コードレビュー品質 がはるかに高い
      Claudeは細かい部分を指摘するが、Codexは本当に重要な問題を見つけてくれる
    • Opus 4.5以降、Claudeもかなり改善したように思う
  • セキュリティの観点から見ると、OpenAIのモデルは 攻撃的(offensive) な作業を過度に制限していて残念だ
    防御のためには、ある程度の攻撃的シミュレーションが必要だと思う

    • 自分はGPT‑5をバックエンドに使う マルチエージェント構成 で攻撃テストを実施しているが、制約なくうまく動いている
    • ChatGPTもCodexも 攻撃的なセキュリティテスト によく協力してくれる
    • 記事によれば、より 許容的(permissive) なモデルは招待制で提供されるという
      信頼できる専門家にだけアクセスを認めるのは合理的なアプローチだと思う
    • ブラックハット機能を強化することがセキュリティに役立つのかという問いには、バランスが必要だと思う
    • 自分も毎日OpenAIのモデルで攻撃的テストをしているが、問題にぶつかったことはない
  • 「サイバーセキュリティ」を前面に押し出しているのが興味深い
    すでに セキュリティ分析の自動化 は臨界点を超えており、モデルの進歩より 反復作業の自動化 のほうが重要だと思う
    脆弱性分析の大半は自動化可能な単純作業であり、それを取り除けば人間は創造的な分析に集中できる

  • 自分にとってCodexは常に ベースモデルより性能が低い
    CLIではコードを書こうとするのが早すぎる
    単に質問しただけなのにファイルを修正しようとするので不便だ

    • 「まだコードは書かず、会話だけしよう」と明示すればうまく動く
    • 調査と計画の段階では 非Codexモデル を使い、実行段階でCodexを使うのが効率的
    • 自分も同じ経験がある。Codexは機能的には合っているが、コードが 妙だったり雑然としていたり する
    • 現在 planモード が開発中なので、この問題は緩和されると期待している
      今は .md ファイルだけを編集するよう依頼すれば、ある程度コントロールできる
    • CodexTheModelは速いが、自分は 品質優先 なのでベースモデルを好む
  • 招待制で セキュリティ研究用モデルへのアクセス を認める方針は合理的だと思う
    「安全性アライメント」が過剰だと、セキュリティ分析能力が落ちる可能性がある
    KYC手続きを経るだけで、前向きな研究成果を出しつつリスク露出を減らせるはずだ

  • 「デュアルユース(dual-use)」のリスクとは、新しい攻撃手法そのものより 実行のハードルを下げること を意味する
    同じ機能でも、防御側には脆弱性分析を助ける一方で、攻撃側には自動化された攻撃ツールになり得る
    だからこそ 配布統制とログ記録 が重要だ

    • 「セキュリティ脆弱性のレビュー」の依頼がメンテナーから来るのか、攻撃者から来るのかで結果はまったく変わる
    • 脆弱性を見つけてパッチできるということは、同時に 悪用可能性 も高いという意味だ
    • 結局このモデルは レッドチームにもブルーチームにも 有用だということだ
    • セキュリティ脆弱性の検出能力が高いということは、すなわち 攻撃の自動化 にも使えるということだ
  • GPT‑5.1をVSCodeのCodexプラグインで使ってみたが、本当に 魔法のような体験 だった
    5.2ではまだ大きな違いは感じていないが、CursorやKilo Code並みに機能が拡張されればさらに良くなりそうだ
    以前はOpenAIは遅れていると思っていたが、5.1はGeminiよりはるかに優れている