5 ポイント 投稿者 GN⁺ 2025-11-20 | 2件のコメント | WhatsAppで共有
  • OpenAIが新たに公開した GPT‑5.1‑Codex‑Max は、長期的かつ複雑な開発作業を実行するよう設計された 最新のエージェント型コーディングモデル で、Codex環境で利用可能
  • 新しい 「compaction」技術 により、複数のコンテキストウィンドウをまたぎながら、数百万トークン規模のプロジェクトを一貫して処理
  • トークン効率 が向上し、同等の推論レベルで30%少ないトークンでより優れた性能を達成、コスト削減効果が期待される
  • 長時間にわたり自律的に作業し、24時間以上続くリファクタリングとデバッグ を実行可能
  • セキュリティサンドボックスと サイバーセキュリティ監視体制 を強化し、安全なAIコーディングパートナーへと進化中

GPT‑5.1‑Codex‑Max の紹介

  • GPT‑5.1‑Codex‑Max はOpenAIの新しい エージェント型コーディングモデル であり、ソフトウェアエンジニアリング・数学・研究など幅広い分野の作業を学習した 推論ベースのモデルアップデート版
    • Codex CLI、IDE拡張、クラウド、コードレビュー環境ですぐに利用可能
    • APIアクセスは近日提供予定
  • モデルは 速度・知能・トークン効率 が向上しており、開発サイクル全体でより信頼できるコーディングパートナーとして機能
  • Compaction プロセスを通じて、複数のコンテキストウィンドウをまたぎながら、数百万トークン規模の作業を一貫して処理

フロンティアコーディング性能

  • 実際の ソフトウェアエンジニアリング作業(PR作成、コードレビュー、フロントエンドコーディング、Q&A) で訓練されており、前モデルと比べて多くの評価で優れた性能を示す
  • Windows環境 で動作する初のCodexモデルであり、Codex CLIの協業性能向上に向けた取り組みも含まれる
  • ベンチマーク改善だけでなく、実際の使い勝手でも改善された結果を確認

速度とコスト効率

  • SWE‑bench Verified 基準で、同等の推論レベルにおいてGPT‑5.1‑Codexと比べ 30%少ないトークン使用 でより高い性能を達成
  • 「xhigh」推論モード は、より長い思考時間を通じて品質向上を提供し、一般的な作業には「medium」モードを推奨
  • トークン効率の向上は 開発者のコスト削減 につながると見込まれる
    • 例: GPT‑5.1‑Codex‑Maxは、類似の機能と美しさを備えたフロントエンドデザインをはるかに低コストで生成

長時間実行タスク

  • Compaction機能 により、コンテキストの限界を超える複雑なリファクタリングや長期エージェントループを実行可能
    • セッションが限界に達すると自動的に圧縮(compact)し、進行中の作業を維持したまま新たなコンテキストを確保
  • 内部評価では 24時間以上継続する作業 の実行事例を確認
    • テスト失敗の修正と反復的な実装を通じて、最終的に成功した結果を導出
  • 長期的一貫性を維持する能力は、汎用的で信頼できるAIシステム へ進むための中核的基盤

安全で信頼できるAIエージェントの構築

  • 長期推論評価 で性能が大きく向上し、サイバーセキュリティおよび長期コーディング課題 で改善された結果を提供
  • Cybersecurity Preparedness Framework の基準では「High」水準には達していないが、これまでに公開されたモデルの中で 最も強力なサイバーセキュリティ性能 を持つ
    • Aardvarkプログラム などを通じて防御的活用を強化
  • サイバーセキュリティ専用監視 により悪用の試みを検知・遮断し、疑わしい活動はポリシー審査システムへ送られる
  • Codexは基本的に セキュリティサンドボックス で実行され、ファイルアクセスとネットワーク利用が制限される
    • インターネットアクセス時には プロンプトインジェクションのリスク が存在
  • 開発者はデプロイ前に エージェントの作業をレビュー する必要がある
    • Codexはターミナルログ、ツール呼び出し、テスト結果を記録し、人間のレビューを置き換えるのではなく補助する役割 を果たす
  • サイバーセキュリティ機能は防御と攻撃の両方に利用され得るため、段階的な展開と保護措置の強化 を並行して進める

提供と展開

  • GPT‑5.1‑Codex‑Max は ChatGPT Plus、Pro、Business、Edu、Enterprise プランのCodexで利用可能
  • Codex CLIをAPIキーで利用する開発者にも近日提供予定
  • 本日からCodex内の デフォルトモデルとしてGPT‑5.1‑Codex‑MaxがGPT‑5.1‑Codexを置き換える
    • GPT‑5.1は汎用モデルであり、Codex‑Maxは エージェント型コーディング作業専用 として推奨される

結論

  • GPT‑5.1‑Codex‑Max は、長期コーディング作業の継続性、複雑なワークフロー管理、高品質な実装 において大きな前進
  • CLI、IDE拡張、クラウド統合、コードレビューツールの改善と組み合わさることで エンジニアリング生産性を70%向上
    • OpenAI社内エンジニアの 95%がCodexを週次で利用
  • エージェント機能の拡張とともに、開発生産性の新たな段階 へ突入

付録: モデル評価結果

  • SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
  • SWE‑Lancer IC SWE: 66.3% → 79.9%
  • Terminal‑Bench 2.0: 52.8% → 58.1%

2件のコメント

 
kaydash 2025-11-27

コーデックス、MS AOIAで会おう😊

 
GN⁺ 2025-11-20
Hacker Newsの意見
  • 最近 ClaudeCodex をかなり使ってみた
    Claude は指示事項(例: CLAUDE.md)をほとんど無視する一方で、Codex は一文字たりとも取りこぼすまいとするかのように 執拗なまでに忠実 に従う
    たとえば、テストコードのタイプミスを Claude は「これは明らかに typo だ」と直すが、Codex はいっそ V8 エンジンを書き直して算術を壊す くらい極端
    なので、Claude は高速な反復作業に、Codex は正確さが重要な長期作業にそれぞれ向いていると感じる

    • 私も Codex にはとても感心した。6か月進めている フライトシミュレータープロジェクト で座標系を ECEF に切り替える必要があり、物理エンジンとグラフィックスシステム全体を書き直さなければならなかった
      段落ひとつ分の指示を与えただけで、45分でほぼ完璧にやってのけた。要約レポートを出させてみると、本当にすべての指示を 一字一句漏らさず 守っていた
    • 友人が Claude にいつも自分を「Mr Tinkleberry」と呼ぶよう頼んでいて、Claude がそれを忘れるたびに 指示無視を検知 できると言っていた
    • Codex はまるで「地球最後のプログラマ」のように振る舞う。何があっても目標を達成しようとする
      こうした態度はブラックボックスとして扱う人には良いが、私は 常識のある協業相手 がほしい
      これは OpenAI と Anthropic が AI の未来をどう見ているかの違いを示しているように思える
    • 「1+1===3 テスト修正」という比喩が本当に秀逸。この一行で GPT 系列と Claude 系列の 根本的な違い を説明できる
      GPT モデルは即興的なコーディングには弱いが、要件が明確な作業 には卓越している
    • 私は Codex が コード削除をまったくできず、常にコードベースを不必要に膨らませる点がもどかしかった
      Python と TypeScript の両方で .getattr(), typeof のような防御的コードが多すぎた
  • 私たちはモデル訓練は上手いが 命名は下手 😄
    新バージョンは SWE-Bench-Verified 77.9%、SWE-Lancer 79.9%、TerminalBench 2.0 で 58.1% と SOTA を達成
    複数のコンテキストウィンドウを圧縮(compaction)して長時間の作業が可能で、トークン効率が 30% 向上
    意見を聞きたい

    • 現在 GPT‑5.1‑Codex‑High を使っているが、Max 版は コストとクレジット上限 がどう違うのか気になる
      「トークン削減」なら安そうだが、「Max」という名前は高そうに聞こえる
    • Codex は素晴らしい製品なので 段階的アップグレード でも歓迎。近いうちに試す予定
    • Issue #6426 を解決したのか気になる。
      5.1 はトークンを使いすぎて 5.0 に戻っていた
    • このモデルを Chat インターフェース でも使えるようにしてほしい
    • Claude Code の subagent 機能 が気に入っている。複雑なコードベースでのコンテキスト管理に役立つ
      サンプルエージェント を参考にしたが、Codex CLI にもこういう機能があるといい
  • 今日 GPT‑5.1‑Codex‑MaxGemini 3 Pro を CLI で比較してみた
    Gemini は協業相手として扱いにくい。質問をすると意図を推測して先にコードを書いてしまう
    一方で Codex は質問にそのまま答える
    コード品質は Gemini のほうが 人間に読みやすいスタイル だったが、計画立案と実装精度は Codex のほうがはるかに優れていた
    Gemini には DB カラム名の幻覚, 機能の欠落, 統合性の不足 などの問題があった
    全体として Codex が明確な勝者だった

    • Google は Gemini 3 があらゆるベンチマークで最高だと誇っていたが、実際にはそうではないことを示している
    • Gemini を使うときは temperature 設定 をデフォルトの 1.0 に維持すべき。下げるとループや性能低下が起きる
      公式ドキュメント 参照
    • 私も Gemini に「コードを書くな」と言っても、何度もコードを書き直された
  • OpenAI はしばしば 競合他社の発表直前 に自社モデルを公開する
    GPT‑4o も Google I/O の前日に発表していた。今回の Codex もおそらく 段階的アップデート にすぎない可能性が高い

    • GPT‑5.1 / Codex はすでに Gemini 3 よりベンチマークで優勢 で、今回のアップデートで差がさらに広がる
    • Anthropic も GPT‑5 のリリース時期に合わせて Opus 4.1 を出した。今や競争はかなり激しい
    • こうした競争のおかげで進歩が速くなっている。健全な競争 に感謝すべきだ
    • Gemini が市場を侵食しており、OpenAI もそれを分かっている
    • こうした発表タイミング競争にはもう慣れた
  • SVG レンダリング例 を見ると、
    medium レベル はバランスがよく、high/low の間で意図的なスタイル差を見せている
    こうした比較によってモデルの 創造的一貫性 を把握できる

    • ただし、この手の SVG 出力ベンチマーク は今ではあまり意味がなくなっている気がする。RLHF で特化学習された結果かもしれない
  • 各社がモデル訓練に注ぎ込む努力の 1% だけでも 決済・ログイン体験の改善 に回してほしい
    Claude にはまともなログインシステムがほとんどなく、OpenAI は Codex CLI のバグ#2798)を直すべき
    Google は製品と課金構造が複雑すぎる。ひとつの価格ページ に統合すべきだ

    • 私も Google の課金システムのせいで諦めた。Google Payments が何なのかも分からないし、アカウント認証エラーで 18年ものの会社アカウントが停止された
    • Google の 製品ラインアップが雑然 としている。Vertex AI、AI Studio、Maker Studio、Gemini などでドキュメントが重複し、不明瞭だ
    • Gemini の データ学習オプトアウト オプションが消え、どのアカウントが学習対象に含まれるのかも不透明になっている
      Workspace アカウントも安全ではない。ToS を注意深く読む必要がある
      今では OpenAI のほうがはるかに 信頼感のある顧客体験 を提供していると感じる
    • Gemini 3 Pro が 許可を得ていないデータで後学習 されたのではないかと疑っている
      Issue #12121 でも関連する議論がある
    • Claude はログイン時に パスワードやパスキーの選択肢 がなくて不便だ
  • 「信頼できるコーディングパートナーになるための新たな段階」と「長時間作業に最適化されたモデル」という文言は 矛盾 しているように聞こえる
    パートナーなら一緒に短いサイクルで反復しながら働くべきで、ひとりで長時間作業するのはパートナーではない

    • Codex は長時間作業で あまりに独断的 で、TLS ライブラリまで新しく書き直すなど危険なアプローチを取る
    • (Codex チームメンバー)私たちは短い反復作業と長期委任作業を どちらもこなせる同僚型モデル を目指している
      公式ブログ のトークングラフを見ると、その方向性が分かる
    • Cursor の Composer モデル もおすすめ。非常に高速で、結果が不十分でも 30 秒以内に再試行できる
  • Codex の plan モード の速さには感心した。コード品質も悪くなかった
    だが、「npm run build のあと全問題を修正して」と言うと、eslint 関連パッケージをインストールしながら暴走 した
    Claude Code は同じ作業を 1 分以内で終えた。Codex はまだ不安定なようだ

    • plan モードが何なのか気になる
  • Codex は バックエンドやデータ中心の作業 には強いが、単純な UI 作業では奇妙な結果を出す傾向がある

  • 先週末に Claude と Codex を一緒に使ってみたが、Codex が TypeScript の物理・グラフィックスコード ではるかに良い結果を出した
    数千行のうち、自分で直接書いたのは数百行だけだった。
    これから新しい Codex に 以前の Codex の作業をレビュー させてみる予定だ