- GPT-5-Codexは、実際のソフトウェアエンジニアリング向けに最適化されたモデルで、短い対話型セッションから長時間の自律作業まで幅広くサポート
- 新モデルではコードレビュー機能が強化され、依存関係の探索、テストの実行、意図と実装の比較を通じて重要な欠陥を早期に発見
- 大規模なコードリファクタリングなどで優れた性能を示し、ユーザーの要件に応じて作業時間を動的に調整
- Codex CLIとIDE拡張が刷新され、画像添付、作業進捗の追跡、Web検索やMCP連携など、エージェント型ワークフローに合わせて改善
- GitHub連携により、PRの自動レビューや修正提案まで可能になり、チームのレビュー負荷を減らし、リリースの信頼性を向上
- Codexは現在、ChatGPT Plus, Pro, Business, Edu, Enterpriseプランに含まれる
GPT-5-Codex
- GPT-5-Codexは、複雑な実践的エンジニアリング作業(プロジェクトのビルド、機能追加、大規模リファクタリング、デバッグ、コードレビュー)に特化したモデル
- AGENTS.mdの指示への追従能力が向上し、コードスタイルやクリーンさについて長い説明をしなくても、望む結果を得られる
- 作業の難易度に応じて思考時間を動的に調整
- 単純なリクエストには素早く応答し、大規模な作業には数時間以上にわたり自律的に実行して結果を改善
- コードレビューに最適化されており、コードベースの探索、依存関係の分析、テスト実行によって正確な検証を行う
- オープンソースプロジェクトのコミット検証では、GPT-5-Codexのレビューのほうがより信頼性高く評価された
- フロントエンド作業でも強力で、クラウドでは画像入力を活用して進捗を視覚的に確認し、結果をスクリーンショットで共有できる
- GPT-5が汎用モデルである一方、GPT-5-CodexはCodex環境専用のエージェント型コーディング作業のために設計されている
Codexのアップデート
- Codex CLIとIDE拡張は、エージェント型コーディング体験を中心に再設計された
- CLIでは画像添付、作業進行のTo-Do管理、外部システム接続が可能になった
- ターミナルUIは、ツール呼び出しやdiffがより見やすく改善
- 承認モードは簡素化され、安全性と利便性を両立
- IDE拡張はVS Code、Cursorなどで動作し、ファイルや選択コードをもとに、より短いプロンプトで素早い結果を提供
- ローカル環境とクラウド環境をシームレスに行き来し、進行中の作業追跡と完了済み作業の確認を支援
- クラウド環境では、キャッシュによる高速化(90%短縮)、自動環境設定、インターネットアクセス制御機能が強化
- UIデザイン仕様やバグ報告時に画像を活用でき、Codexが独自ブラウザを開いて成果物を確認し、PRにスクリーンショットを添付可能
- GitHub連携により、PRの自動レビューと修正提案をサポート
@codex reviewコマンドで特定のレビュー依頼が可能
- OpenAI社内でもPRの大半をCodexが事前レビューし、数百件の問題を早期発見している
安全性とセキュリティ
- Codexはサンドボックス環境でデフォルト実行され、ネットワークアクセスが制限される
- 承認ベースで危険なコマンドの実行可否を制御でき、信頼済みドメインのみを許可可能
- 開発者は環境に合わせてセキュリティレベルを調整でき、Codexは各作業にログとテスト結果を提供して検証を支援
- 人間のレビューを置き換えるのではなく、補助レビュアーとして活用することが推奨される
- GPT-5-Codexは生物学・化学分野で高い能力を持つモデルに分類されるため、安全対策が適用される
価格と提供
- CodexはChatGPT Plus, Pro, Business, Edu, Enterpriseプランに含まれる
- Plus/Edu/Businessは週1〜2回のセッション向け、Proはフルタイム開発の週次作業を支援
- Businessプランはクレジットの追加購入が可能で、Enterpriseは共有クレジットプールで運用
- Codex CLI APIキー利用者にも、まもなくGPT-5-Codexを提供予定
- Codexはより高速で信頼できるコーディングパートナーへと進化し、チームの野心的なプロジェクト遂行を支えるツールとして定着していく
6件のコメント
複数の文脈を考慮する必要がある課題に対する問題解決能力が低く、全体的に不要なデザインパターンのコードを多用している。学習には実務コードではなく教育用のサンプルコードが主に使われていたという印象を強く受ける。
総合的に見て、geminiとはかなりのパフォーマンス差がある。
Claude Codeと比べると、まだ今のところはClaude Codeのほうが少し実用的でしょうか
結局、良いAIツールとは、ユーザーの教養(?)レベルを考慮しつつ、成果物の質をある程度一定水準で保証してくれることが、良いユーザー体験になるのでしょうか?
あらゆるレベルのユーザーが一様に、AIツールに対してより良い何かを求めている点は興味深いですね。
Claudeがあまりにも使いにくいので、乗り換えてみようかと思います。
どの点がご不便でしょうか?
Hacker Newsの意見
新しいモデルのプロンプトサイズが以前よりほぼ半分(10KB vs 23KB)に縮小されていることを確認した(関連リソース: 以前のプロンプト例, さらに古いプロンプト例)
SWE-bench基準の性能は既存のgpt-5と似ているが、
gpt-5-codexはコードリファクタリング分野で(社内ベンチ基準 33.9% -> 51.3%)主に強化されたように見える最近、Codex CLI(
gpt-5-high)で複数の社内ライブラリをパッケージとして分離する大規模リファクタリングを試したが、モデルがファイル削除後の再作成過程でよくバグを出していた(重要ファイルが抜け落ちるケースなど)個人的にはファイルをそのままコピーしてパッケージごとに修正するアプローチを好んでいたが、今回の改善ではより良いツールコーリングが適用されたようだ
また、新モデルはより「Steerable」(明示的に制御可能)だと主張しているが、私の経験ではCodex CLI(gpt-5)はすでにClaude Codeよりはるかにコントロールしやすく、追加の改善は大歓迎だ
SWE-benchのスコアはgpt-5とgpt-5-codexの両方で似ていることには同意するが、SWE-benchという評価自体が非常に限定的なテストだ
同じスコアでも実際の使用体験は大きく異なりうる
SWE-benchが測定できない要素を詳しく扱うX(旧Twitter)スレッドも共有する: リンク
「よりsteerableだ」という点は、むしろ不利になりうる
プロンプトに過度にそのまま従ってしまうことがあるからだ
結果として、より良いプロンプトの書き方やモデル活用法への理解が必要になる
レベルの高いSWエンジニアには良いが、感覚でコーディングする開発者(vibe-coder)には難しいかもしれない
突然Codex CLI w/gpt-5-codexがClaude Codeより良くなったという意見が多いが、簡単には信じがたい
プロンプトの一部がより上位レイヤーに移されたのか、あるいは別の形で内蔵(bake)されたのではないかと気になる
コードをリファクタリングしてパッケージに移すなら、ファイルは手動で直接移動する方式を勧める
Codexには「以前このファイルは別の場所にあったので、正しく動くように直してほしい」と指示すればいい
ファイル移動の概念をCodexや他のCLIはまだうまく扱えていないように思う
特にファイル削除・移動は、gitコミット作成時にまともに追跡されたことがほとんどない
長い間claude-4-sonnet + Cursorの熱心なユーザーだったが、ここ2か月で使用量が急増した
Cursorの基本サブスクの後にProへアップグレードしたが、それでも限界にぶつかり、結局Claude APIキーを直接使って週あたり約70ドルを支払うようになった(継続不可能だと感じた)
そこへgrok-code-fast-1が登場し、Cursorにつないで毎日使っているが、速くて、安く(今のところ無料)、非常に満足していた
最近GPT-5もCodex VSCode拡張の公式経由で使ってみたが、本当に驚くほど優秀だ
gpt-5-mediumでReact Nativeアプリを大幅にリファクタし、アプリ構造とパフォーマンス改善をたった一晩で完了した(自分でやっていたら最低2日はかかる作業)
今はgpt-5-medium-codexでアプリのルーティング全体の構造を作り直させているが、ツールコールも多く、命令理解と実行が非常に体系的だ
今後のスタックは、Cursor + grok-code-fast-1(日常用)、そして必要なときはCodex/GPTを使う予定だ
ちなみに、gpt-5-mediumは一日中本当に酷使したが、ChatGPT Plusアカウント基準で一度も上限に達せず、OpenAIチームに感謝している
gpt-5-mediumでリファクタリングを試したときのワークフローが気になる
自分でテストしてみるような題材がないので、モデルにどういう形でプロンプトを与えるのか、どんな提案を受けたのか、開発者としての自分の知識がどの程度役に立ったのかが知りたい
共感できるその体験が、平均的なSWE、あるいは平均的な開発者にも可能なレベルなのか気になる
Cursorを使い始めて1年で初めて使用量上限を超えた
Claude、GPT、そしてGrokまですべて上限に達したことがある
そのため、Cursor Proサブスク内で使用量の追加課金(月$25、つまり$20+$5)を選んでClaudeを使い続けているが、Grokより速かったからだ
私もほぼ同じ選択をすることになった
grok-code-fast-1はほとんどのコーディング作業でうまく動く
opencodeで使っているが、無料で一定量は提供されているようで、別途grokキーを追加していないのに使えた
Codex CLI IDEの品質には非常に感心している
以前はいまひとつだと思っていたとしても、vscode拡張版で再度使ってみることを勧める。Plusサブスク基準で気前よく使える利用量があるからだ
Claude code maxサブスクをやめて、ChatGPT pro $200プランに乗り換えた
はるかに速くなり、今のところまだ上限に達したことはない
aiderとgemini proを組み合わせてプロジェクト開発に活用している
具体的には自作ツールのプロジェクトを共有する: aretecodex.tools
Cursorを$20のプランで使っているが、15日で上限に達し、残りの1か月は追加料金を払うことになった
おすすめの対策が知りたい
CLI IDEが正確に何を意味するのか気になる
これでclaude codeのようにサブスク制でも使えるのか、それともAPIしかないのか混乱している
このスレッドで多くのユーザーがCodexへ乗り換えたり、Claude Codeから離れたりしている点が興味深かった
Claude Codeの最大の問題は、あまりに多くの作業をさせるとmock実装やダミーコードを頻繁に作ってしまい、実際には問題をさらに悪化させていたことだった
入力プロンプトを調整しても改善が難しく、結局Codexに切り替えた
Codexには、すでに完全にセットアップされたコードベース内で作業する利点があるとはいえ、実体験としてはCodexのほうがはるかに良かった
他のシステムには別個の「プランニング」モードがないので、最初から実装しようとしてしまい、プロンプトを細かく調整する必要がある
Claudeは「計画 > 実行」の構造を別途サポートしているので、アプローチが異なる
最近2週間の観察では、Claude Codeは性能もかなり落ち、使用量割り当ても急減した一方で、OpenAI Codexはむしろ性能が上がり、割り当てもずっと余裕があるように感じる
1か月以上使っていない人がいるなら、Codex CLIをもう一度試してみることを勧める
最終利用者の観点では、「いつでも脱出できること」が最も重要だと思う
サービスを常に比較し、価格性能比が最も良いものを選ぶべきだ
この1年、複数の会社がそれぞれ異なる長所と短所で競ってきたが、特別に革新的なサービスはなかった
特定のサービスに固執する理由はなく、SaaS事業者だけがユーザーを引き留めようと努力している
Codex CLIにプロジェクトでgitがあると、相変わらず「YOLO(とりあえず全部やる)」スタイルで振る舞う癖が残っているのか気になる
コーディング支援ツールに必須で求める点は
ビルドフックやサブエージェント機能はなくてもそれほど気にしない
気になることがあるのだが、Codex CLIでClaudeの「normal mode」に相当するモードをどう使えるのか知りたい
Codexはvibe codingかplanモードのどちらかしかなく、途中で「この作業(a/b)をやってよいか」と尋ねるインタラクティブモードがないので不便だ
修正されたコード編集をコピペするか、自動で受け入れるかしか選べない理由が理解しづらい
その後、プランのループを何度か回して確認してから実行を指示する
たまにLLMがプランを「忘れる」ことがあるので、計画は別にコピーして保存する
作業を段階ごとに私へ渡させたり、ビルド・ユニットテストなど各マイルストーンごとに検証も並行して行う
とても印象的に感じた
「共有プレゼンス」アニメーション(全ユーザーのカーソル位置に応じて背景が変わるWebアプリ)を開発中で、ClaudeとCodexの両方を使って実験していた
昨日までは両モデルとも苦戦しており、その中ではClaudeがわずかに優勢だった
何かを「創造的に」作る必要がある状況では、両モデルとも結果がややありきたりで、シミュレーション実装が難しかった
今日Codexで同じ作業をしたところ、デザイン面は依然として地味だったが、シミュレーション部分ははるかに性能が良かった
追加のUI属性や、「既存アプリのデザインを参考に合わせてほしい」という指示を出すと、結果ははるかに良くなる
AIコーディングをもう一度試したくてChatGPTを購読し、Codexを使ってみたが、速度があまりに遅く感じる
ほぼ空のリポジトリで単純な作業なのに、20分間ずっとモデルが「考えて」いるだけだ
エンジニアが待つだけの体験なので、実生産性に疑問がある
非同期エージェントなら複数を並列で回せるのだろうが、構造化されたコードベースが必要そうで、すでに数時間使ったのにスケルトンすら作れていない
ドキュメントも動画も全部読んで見たが、この程度なら自分の手で直接作ったほうがずっと速そうだ
自分が何を間違えているのか、単なるサーバー過負荷なのか、それとも現状のAIの水準が元々こうなのか気になる
複数のエージェントを同時に動かすことに慣れれば、かなり使えると思う
関連する記事を以前読んだが、今は見つけにくい
週末にCodexを初めて使ってみたが、結果が少し変だった
とても単純な例(RailsアプリをDocker Composeで立ち上げてホームページとDeviseを追加)を依頼したのに、実際のファイルを作る代わりに、bootstrap.shの中へすべてのファイル内容をハードコーディングしてしまった
今後ほかのやり方で動くのか、もう少し様子を見たい
先月chatgptを買って使っているが、OpenAIは最近ユーザー体験をかなり改善していると感じる
たとえばvoiceモードはClaudeよりずっと良く、モデル名も以前は紛らわしかったが単純化されて使いやすくなった
一般アシスタントとしてもClaudeより性能が高く、OpenAIは新しいツールを継続的に出しているので、信頼性の面でも優位だ