- OpenAIが新たに公開した GPT‑5.1‑Codex‑Max は、長期的かつ複雑な開発作業を実行するよう設計された 最新のエージェント型コーディングモデル で、Codex環境で利用可能
- 新しい 「compaction」技術 により、複数のコンテキストウィンドウをまたぎながら、数百万トークン規模のプロジェクトを一貫して処理
- トークン効率 が向上し、同等の推論レベルで30%少ないトークンでより優れた性能を達成、コスト削減効果が期待される
- 長時間にわたり自律的に作業し、24時間以上続くリファクタリングとデバッグ を実行可能
- セキュリティサンドボックスと サイバーセキュリティ監視体制 を強化し、安全なAIコーディングパートナーへと進化中
GPT‑5.1‑Codex‑Max の紹介
- GPT‑5.1‑Codex‑Max はOpenAIの新しい エージェント型コーディングモデル であり、ソフトウェアエンジニアリング・数学・研究など幅広い分野の作業を学習した 推論ベースのモデルアップデート版
- Codex CLI、IDE拡張、クラウド、コードレビュー環境ですぐに利用可能
- APIアクセスは近日提供予定
- モデルは 速度・知能・トークン効率 が向上しており、開発サイクル全体でより信頼できるコーディングパートナーとして機能
- Compaction プロセスを通じて、複数のコンテキストウィンドウをまたぎながら、数百万トークン規模の作業を一貫して処理
フロンティアコーディング性能
- 実際の ソフトウェアエンジニアリング作業(PR作成、コードレビュー、フロントエンドコーディング、Q&A) で訓練されており、前モデルと比べて多くの評価で優れた性能を示す
- Windows環境 で動作する初のCodexモデルであり、Codex CLIの協業性能向上に向けた取り組みも含まれる
- ベンチマーク改善だけでなく、実際の使い勝手でも改善された結果を確認
速度とコスト効率
- SWE‑bench Verified 基準で、同等の推論レベルにおいてGPT‑5.1‑Codexと比べ 30%少ないトークン使用 でより高い性能を達成
- 「xhigh」推論モード は、より長い思考時間を通じて品質向上を提供し、一般的な作業には「medium」モードを推奨
- トークン効率の向上は 開発者のコスト削減 につながると見込まれる
- 例: GPT‑5.1‑Codex‑Maxは、類似の機能と美しさを備えたフロントエンドデザインをはるかに低コストで生成
長時間実行タスク
- Compaction機能 により、コンテキストの限界を超える複雑なリファクタリングや長期エージェントループを実行可能
- セッションが限界に達すると自動的に圧縮(compact)し、進行中の作業を維持したまま新たなコンテキストを確保
- 内部評価では 24時間以上継続する作業 の実行事例を確認
- テスト失敗の修正と反復的な実装を通じて、最終的に成功した結果を導出
- 長期的一貫性を維持する能力は、汎用的で信頼できるAIシステム へ進むための中核的基盤
安全で信頼できるAIエージェントの構築
- 長期推論評価 で性能が大きく向上し、サイバーセキュリティおよび長期コーディング課題 で改善された結果を提供
- Cybersecurity Preparedness Framework の基準では「High」水準には達していないが、これまでに公開されたモデルの中で 最も強力なサイバーセキュリティ性能 を持つ
- Aardvarkプログラム などを通じて防御的活用を強化
- サイバーセキュリティ専用監視 により悪用の試みを検知・遮断し、疑わしい活動はポリシー審査システムへ送られる
- Codexは基本的に セキュリティサンドボックス で実行され、ファイルアクセスとネットワーク利用が制限される
- インターネットアクセス時には プロンプトインジェクションのリスク が存在
- 開発者はデプロイ前に エージェントの作業をレビュー する必要がある
- Codexはターミナルログ、ツール呼び出し、テスト結果を記録し、人間のレビューを置き換えるのではなく補助する役割 を果たす
- サイバーセキュリティ機能は防御と攻撃の両方に利用され得るため、段階的な展開と保護措置の強化 を並行して進める
提供と展開
- GPT‑5.1‑Codex‑Max は ChatGPT Plus、Pro、Business、Edu、Enterprise プランのCodexで利用可能
- Codex CLIをAPIキーで利用する開発者にも近日提供予定
- 本日からCodex内の デフォルトモデルとしてGPT‑5.1‑Codex‑MaxがGPT‑5.1‑Codexを置き換える
- GPT‑5.1は汎用モデルであり、Codex‑Maxは エージェント型コーディング作業専用 として推奨される
結論
- GPT‑5.1‑Codex‑Max は、長期コーディング作業の継続性、複雑なワークフロー管理、高品質な実装 において大きな前進
- CLI、IDE拡張、クラウド統合、コードレビューツールの改善と組み合わさることで エンジニアリング生産性を70%向上
- OpenAI社内エンジニアの 95%がCodexを週次で利用
- エージェント機能の拡張とともに、開発生産性の新たな段階 へ突入
付録: モデル評価結果
- SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
- SWE‑Lancer IC SWE: 66.3% → 79.9%
- Terminal‑Bench 2.0: 52.8% → 58.1%
2件のコメント
コーデックス、MS AOIAで会おう😊
Hacker Newsの意見
最近 Claude と Codex をかなり使ってみた
Claude は指示事項(例: CLAUDE.md)をほとんど無視する一方で、Codex は一文字たりとも取りこぼすまいとするかのように 執拗なまでに忠実 に従う
たとえば、テストコードのタイプミスを Claude は「これは明らかに typo だ」と直すが、Codex はいっそ V8 エンジンを書き直して算術を壊す くらい極端
なので、Claude は高速な反復作業に、Codex は正確さが重要な長期作業にそれぞれ向いていると感じる
段落ひとつ分の指示を与えただけで、45分でほぼ完璧にやってのけた。要約レポートを出させてみると、本当にすべての指示を 一字一句漏らさず 守っていた
こうした態度はブラックボックスとして扱う人には良いが、私は 常識のある協業相手 がほしい
これは OpenAI と Anthropic が AI の未来をどう見ているかの違いを示しているように思える
GPT モデルは即興的なコーディングには弱いが、要件が明確な作業 には卓越している
Python と TypeScript の両方で
.getattr(),typeofのような防御的コードが多すぎた私たちはモデル訓練は上手いが 命名は下手 😄
新バージョンは SWE-Bench-Verified 77.9%、SWE-Lancer 79.9%、TerminalBench 2.0 で 58.1% と SOTA を達成
複数のコンテキストウィンドウを圧縮(compaction)して長時間の作業が可能で、トークン効率が 30% 向上
意見を聞きたい
「トークン削減」なら安そうだが、「Max」という名前は高そうに聞こえる
5.1 はトークンを使いすぎて 5.0 に戻っていた
サンプルエージェント を参考にしたが、Codex CLI にもこういう機能があるといい
今日 GPT‑5.1‑Codex‑Max と Gemini 3 Pro を CLI で比較してみた
Gemini は協業相手として扱いにくい。質問をすると意図を推測して先にコードを書いてしまう
一方で Codex は質問にそのまま答える
コード品質は Gemini のほうが 人間に読みやすいスタイル だったが、計画立案と実装精度は Codex のほうがはるかに優れていた
Gemini には DB カラム名の幻覚, 機能の欠落, 統合性の不足 などの問題があった
全体として Codex が明確な勝者だった
公式ドキュメント 参照
OpenAI はしばしば 競合他社の発表直前 に自社モデルを公開する
GPT‑4o も Google I/O の前日に発表していた。今回の Codex もおそらく 段階的アップデート にすぎない可能性が高い
SVG レンダリング例 を見ると、
medium レベル はバランスがよく、high/low の間で意図的なスタイル差を見せている
こうした比較によってモデルの 創造的一貫性 を把握できる
各社がモデル訓練に注ぎ込む努力の 1% だけでも 決済・ログイン体験の改善 に回してほしい
Claude にはまともなログインシステムがほとんどなく、OpenAI は Codex CLI のバグ(#2798)を直すべき
Google は製品と課金構造が複雑すぎる。ひとつの価格ページ に統合すべきだ
Workspace アカウントも安全ではない。ToS を注意深く読む必要がある
今では OpenAI のほうがはるかに 信頼感のある顧客体験 を提供していると感じる
Issue #12121 でも関連する議論がある
「信頼できるコーディングパートナーになるための新たな段階」と「長時間作業に最適化されたモデル」という文言は 矛盾 しているように聞こえる
パートナーなら一緒に短いサイクルで反復しながら働くべきで、ひとりで長時間作業するのはパートナーではない
公式ブログ のトークングラフを見ると、その方向性が分かる
Codex の plan モード の速さには感心した。コード品質も悪くなかった
だが、「npm run build のあと全問題を修正して」と言うと、eslint 関連パッケージをインストールしながら暴走 した
Claude Code は同じ作業を 1 分以内で終えた。Codex はまだ不安定なようだ
Codex は バックエンドやデータ中心の作業 には強いが、単純な UI 作業では奇妙な結果を出す傾向がある
先週末に Claude と Codex を一緒に使ってみたが、Codex が TypeScript の物理・グラフィックスコード ではるかに良い結果を出した
数千行のうち、自分で直接書いたのは数百行だけだった。
これから新しい Codex に 以前の Codex の作業をレビュー させてみる予定だ