OpenAI、クラウドベースのコードエージェント Codex のリサーチプレビューを公開

(openai.com)

8 ポイント投稿者 GN⁺ 2025-05-17 | 2件のコメント | WhatsAppで共有

OpenAIはソフトウェアエンジニアリング専用エージェント Codexを公開し、反復作業、コード作成、PR提案などを自動化できるようにした
Codexは分離されたクラウドサンドボックス環境で作業を実行し、テストとログによって結果を透明に検証できる
AGENTS.md ファイルを通じて、プロジェクトごとの慣行やテスト方法を Codex に明示でき、ユーザーのコードベースに最適化できる
CLI版の Codex CLIもあわせて提供され、ローカル開発環境でもエージェントを活用できる
初期展開は ChatGPT Pro・Team・Enterprise 向けに提供され、今後 Plus および Edu ユーザーにも拡大予定

Introducing Codex

Codexとは？

Codexはクラウド上で動作するソフトウェアエンジニアリングエージェントで、ユーザーのコードベースを読み取り、さまざまな作業を自動で処理できる
コード機能の追加、質問への回答、バグ修正、PR提案などを並列で実行可能
各タスクは分離されたサンドボックス環境で独立して実行され、ユーザーのリポジトリが事前に読み込まれている

動作の仕組み

ChatGPT のサイドバーで Codex 機能から**「Code」または「Ask」**コマンドで作業を開始
ファイルを読み書きし、テスト、リンター、型チェッカーなどのコマンドを実行可能
作業は通常1〜30分以内に完了し、リアルタイムで進捗を確認できる
Codexは作業後にコミットを作成し、ターミナルログおよびテスト出力を引用して変更内容を透明に説明する
結果をレビューした後、GitHub PR の作成または直接統合が可能

AGENTS.md ファイル

プロジェクト内にあるAGENTS.mdは、Codex がコードベースを探索し、テストする方法を案内する
READMEに近い形式のドキュメントで、コードスタイル、実行コマンド、PRメッセージ形式などを含められる
より深いディレクトリにあるファイルが優先され、明示されたテストはすべて実行する必要がある
Codexは、明示的なプロンプトが AGENTS.md より優先されるというルールにも従う

社内ベンチマーク性能

OpenAI 社内の SWE ベンチマークで、codex-1 は最大 192k トークンに対応し、中程度の難易度設定で優れた精度を達成
AGENTS.md がなくても高い性能を示し、人間が書いたコードスタイルに密接に一致する結果を生成できる

セキュリティと信頼性

Codexは透明性の強化とセキュリティ重視で設計されており、出力を検証できる
作業中はインターネット接続が遮断され、指定されたリポジトリと依存関係にのみアクセス可能
悪意あるコード開発の遮断と、カーネルレベルの正当な作業の許可を区別する学習を行っている

初期の活用事例

OpenAI 社内では、反復的なリファクタリング、テスト作成、ドキュメント整備などに活用中
外部パートナーの例:
- Cisco: 実際の製品全体で適用テストとフィードバックを提供
- Temporal: 大規模コードベースのデバッグ、テスト実行、リファクタリングに利用
- Superhuman: QA や統合失敗の修正、PM による軽微なコード変更を可能にする支援
- Kodiak: 自動運転技術のコード分析とツール開発を支援

Codex CLI アップデート

Codex CLI はターミナルベースの軽量コーディングエージェントで、ローカルで o3、o4-mini モデルとともに作業できる
今回のアップデートで、o4-mini ベースのcodex-mini モデルを公開し、CLI 最適化と低遅延応答を提供
ChatGPT アカウントでログインするとAPI キーを自動設定し、Plus/Pro ユーザーに無料クレジットを提供

価格と提供範囲

Codexは現在、Pro、Enterprise、Team ユーザーに提供中で、Plus および Edu にも近日拡大予定
初期段階では追加費用なしで利用可能、今後は使用量ベースの価格体系を導入予定
codex-mini-latest は入力 1M トークンあたり $1.50、出力トークンあたり $6で、75% のプロンプトキャッシュ割引を適用

今後の計画

Codexは長期的に非同期コラボレーションエージェントへと発展する予定
Codex CLI、ChatGPT Desktop、課題トラッカー、CI ツールとのより深い統合を計画
中間フィードバック、実装戦略の議論、能動的な進捗報告機能が追加される予定
開発者が AI によって、より速く集中したコーディングを行える未来を見据えている

付録: codex-1 システムメッセージ要約

作業前後に Git の状態を確認し、必ずコミット完了状態を維持
AGENTS.md ファイル内の検証手順は、小さな変更であってもすべて実行が必要
PR 作成時にはファイル/ターミナルベースの引用ルールが存在（例: 【F:main.py†L12】）
以前の PR やコメント内容の引用は禁止され、ファイルとターミナル結果のみ使用

このシステムメッセージは、Codex のユーザー定義のためにモデルの基本動作を理解するのに活用される。

2件のコメント

fortune 2025-05-18

ついに、cursor や cline などの世代と区別できる次世代エージェントが登場しましたね。世の中のソフトウェア変化のスピードがどれほどさらに速くなるのか、期待が膨らみます。この次世代エージェントの次の登場にも。

GN⁺ 2025-05-17

Hacker Newsの意見

チームの数人のエンジニアと一緒にAssembledでCodexのアルファテストに参加した経験の共有。以前からCursorやClaude Codeのようなローカルエージェントを長く使っていたのでそれほど大きな期待はしていなかったが、Codexの並列タスク実行能力は印象的だったとの評価。複数のリファクタ・テスト・ボイラープレート作業を一度に束ね、コンテキストスイッチなしで同時実行できる。既存ソリューションではこれが難しかったが、Codexはファイルや関数に作業を割り当てれば、PRの足場作りの大半を自動で処理してくれる、無限のジュニアエンジニアができたような感覚。ただし実際に本番投入するまでには依然として多くの後処理が必要。モデル品質は悪くないが、Cursor、Gemini 2.5-proなどと並べて評価したとき、スタイルやロジック、命名に明確な優位はなく、期待値を「満たす」水準という感想
- こうした種類の仕事をするジュニアエンジニアを雇わないのであれば、未来のシニアエンジニアはどこから生まれるのかという問題提起。最近、娘が良い大学でコンピュータサイエンスを卒業したが、就職市場では新卒開発者のポジションよりシニアエンジニアの需要の方がはるかに多いという現実。最近会社で新卒ポジションの募集を出したところ、応募が殺到して公正な評価自体が難しかったという話。結局、就職に成功した娘の友人たちの多くはコネのおかげだった
- 今では何百万人ものエンジニアがGitHubオープンソースに貢献し、優秀な人材がそのコードを使ってAIモデルを開発し、再びそのエンジニアたちを置き換えるという興味深い循環構造になっている。オープンソースへの貢献が増えるほど、関連職務の代替も容易になるという本質的なジレンマへの言及。時間が経つほどオープンソース貢献への動機づけが弱まるのではないかという問い。自分たちは創造的な仕事をしていると思っていたが、実際には反復的で予測可能な知識の組み合わせに大半の時間を使っており、AIがこうした種類の仕事をうまく代替するという自覚。楽観的な見方では、長期的にはより興味深い仕事を作っていく必要があるが、当面の近い将来にはソフトウェアエンジニアの供給過剰・需要不足によって数年間の大きな苦痛が予想される
- Codexの並列タスク実行機能がなぜ重要なのかへの疑問。実際にはLLMがコードを書くのは数秒で終わり、本当に時間がかかるのは作業仕様の記述とレビュー・修正の段階。最も速い部分を並列化して得られる効用は何なのかという疑問の表明
- ジュニア開発者には完全な自律性がないため、結局は彼らの管理やコードレビューにかなりの時間を使う。ジュニアを多く抱えても、その管理コストがボトルネックになりやすいが、Codexのような仮想開発者を多数扱うのは大変にならないのか、それとも自律性が高いのか、使用経験への質問
- CursorとClaude Codeを長く使ってきた立場から、Claude Codeの長所と限界、Codexと比べて並列タスク実行が実際に大きな違いだったのか、最近出たCodex CLIも期待以下だったので、チームのClaude Code利用経験と洞察に期待
OpenAIのCodexプレビュー動画でKaty Shiが「エンジニアリングの仕事はコードを書くことよりコードレビューの方へ移っている」と述べた意見に共感。AIが本格導入される時代でも、開発者は依然としてコードとテストを読むところにとどまっているという観察。シミュレーションという比較的新しい概念が導入されれば、特にフロントエンドではコードやテストだけを見るより多様な結果予測が可能になるはずで、最近この点をテーマに自ら探求しており、Codexのローンチ資料を見て実感した
- 自分のGraphiteに関する主張とも似ている。コードの大量AI生成時代が来れば、レビュー・テスト・統合が中心になり、AIコードレビューシステムも作ってはいるが、人間によるレビューは恒久的に必要。根本的には責任の所在のためであり、コンピュータは決して責任を負えない存在だからだ
- 「シミュレーションを見る」というのは、自動化テストスイートの活用を意味するのかという質問
SWE-benchの共同制作者として、すでに強力なo3の結果に対してもCodexがわずかな改善を示しており興味深い。Verified基準で75%から85%へ上げるのに、20%から75%へ上げたときと同じくらい長い時間が必要なのか気になる
- swe-bench関連ではベンチマーク過剰最適化の現象があると思う。multi-swe-bench、swe polybench、kotlin benchなどさまざまな測定結果を共有
- 20%から75%に到達するまでにかかった時間への質問
Pro版を契約中だが、Codexを試そうとするたびにチーム料金プランの支払いページへ飛ばされる。正式公開前なのか、何か見落としているのか気になる。OpenAI製品を継続的に使ってきており、Codexも本当に試してみたい
- 主要アップデートのたびに似たことが起きる、理解しがたいという反応
- 自分も似た状況だったが、数分前から使えるようになったようなので、段階的なロールアウト中だろうという判断
- まだ段階的に展開中だという案内
ライブ配信で"microVM"への言及。ブラウザ/インターネットアクセスは不可。Firecracker/Unikraftなどのマイクロカーネル利用なら高速かつ安価に大規模拡張できるが、エージェントごとに分離された完全なコンピュータ環境へ移行するには大きな技術的障壁があると予想。現在のChatGPT Operatorはブラウザアクセスをサポートしているので技術的には可能だろうが、需要規模は異なるはず。fork/snapshot/screen/human-in-the-loop対応など、AI専用のフルPC環境を提供するインフラ企業が登場する余地は十分あり、現状はブラウザ活用など部分的な機能実装にとどまっている
- E2B Desktopでこの機能を提供中。デモとSDK紹介リンクを共有
銀行勤務時代、法務チームがアプリに些細な変更要求をよく出してきたが、これからは自分たちで修正できるようになりそうで、法務チームはとても誇らしく思うだろうという話
- コード実行・テストとコードレビューなしに法務チームへコード変更権限を与えるのは危険で、結局そんなことをする人はいないだろうという予想
- 将来はバグトラッキングが大きく変わる見通し。組織内の誰でも課題や機能要望を残せば、モデルが自動対応し、うまくいかなければ人が介入する。結局「どのコード変更が合法で会社基準に合致するか」という判断とレビューが、次第に非技術系レビュアーの中核的役割として浮上してくる
- 現実的には法務チームが直接コード変更をすることはないという約束
プライバシー、学習データのopt-out、そしてプラットフォームを通じて作ったモデルと競争する際に生じうるリスクへの懸念。「自分が作った成果物を競争に使われてはならない」というポリシーが公正なのか疑問。もしかすると過度に悲観的な見方かもしれないが、OpenAIが私たちの作った情報を競争に利用できないようにしようとする際の問題提起
- 動画では、リポジトリについて学習を許可するかどうかを直接選べる明示的オプションがあると案内
"secrets"機能の使用中に問題を経験。環境設定では正常に注入されるが、実際の作業では動作せず、環境再設定などをしても毎回再現するという報告
Codexがクラウドでしか動かず、コードが自動でコミット・プッシュされてしまうと、内部でレビューする時間がないのではという不安。aiderではコミット後にgit reset HEAD^、git diffで変更点を自分で確認し、必要な修正をしてからようやくコミット・プッシュするワークフローを好む
- どうせすぐコミットをロールバックするなら、Aiderの--no-auto-commitsオプションを勧める
- Codexを簡単に言えば既存Codex CLIのマネージドクラウド版で、核心は新しいモデルそのものであり、近くAPIでも提供される見込み
- ライブ配信では、作業完了後にdiffがすぐ表示され、そのdiffを確認した後にのみGitHub PR作成を決められる構造だと案内
会社がコードベースをAIベンダーと共有することをどう考えるか、あるいはローカル導入でのみ使うのかという質問
- 企業がSaaSにコードを共有するのは非常に一般的で、通常は別途契約によって恣意的な利用を防ぐ
- ほとんどの企業のコードはその会社にしか意味のない価値しか持たないという見方
- OpenAIのような企業が、わざわざ自分のコードを見てリスクを取ることはないだろう、法的リスクを負う価値はないという判断
- 結局これもすべて費用対効果のトレードオフで、利益が大きければ共有する価値は十分ある
- Cursorにはエンタープライズモードでデータプライバシーを強制する機能がある