Claude Code(約100時間) vs. Codex(約20時間)の比較
(reddit.com)- 14年のキャリアを持つシニアエンジニアが、8万行規模のPython/TypeScriptプロジェクトでClaude Code(Opus 4.6)とCodex(GPT-5.4)を実戦比較した体験談
- Claude Codeは高速でインタラクティブだが、指示の無視、作業の未完了、既存ファイルへの関数の無秩序な追加などがあり、積極的な管理が必要
- Codexは3〜4倍遅いが、より慎重かつ体系的にコードを書き、自発的にリファクタリングし、指示ファイル(AGENTS.md)を徹底して順守
- Claude Codeは高速なプロトタイピングに、Codexはエンタープライズ級ソフトウェア開発に向いているという評価
- 結論として、両ツールともソフトウェアエンジニアリング能力がなければ良い結果を出しにくいという共通点がある
執筆者の背景と開発環境
- MAG7(米国ビッグテック7社)および別の主要テック企業で14年間勤務したPrincipal/Staff Eng Manager級のエンジニア
- プラットフォームレベルの開発経験が中心で、分散システムの経験が豊富
- プロジェクトはVSCode拡張で構成されたPython/TypeScriptベースの8万行コードで、テストは約2,800件
- ユーザーがPDF/CSV/XMLファイルをアップロードすると、解析後にPostgresベースの構造化データモデルへ正規化するデータ分析アプリケーション
- バックエンドのリアルタイムデータ提供元とWebSocketで接続し、現在のデータをデータモデルへストリーミング
- サーバー側でデータストリームベースの分析を更新し、**SSE(Server-Sent Events)**でWeb UIへ配信
- 雰囲気で書くコーディングではなく、体系的なアーキテクチャに基づく開発
共通エージェントワークフロー
- まずPlanモードで十分にスコープを定めたプロンプトから始め、plan-reviewスキルで8つのサブエージェント(アーキテクチャ、コーディング標準、UIデザイン、性能など)を実行
- 各サブエージェントは、以前のリサーチセッションで作成した参照文書(例:
postgres_performance.md,python_threading.md,software_architecture.md)とともに、具体的なプロンプトを持つ- アーキテクチャレビュー担当は、SOLID、DRY、KISS、YAGNIなどの概念別リファレンスとともにレビューするようプロンプトを構成
- コード作成後は各計画段階ごとに個別コミットし、code-reviewスキル(planサブエージェントの再利用)で各コミットをレビューし、手動でフィードバックを確認・調整
- CLAUDE.mdは約100行で構成され、TDD、Gitワークフロー、主要なDevEx規約、Dockerコマンドなどプロジェクトツールの使い方を含む
Claude Codeの使用経験(Opus 4.6)
- 締め切りに追われるエンジニアのような印象で、コアアーキテクチャを見直すよりも、ハック、パッチ、ヘルパー関数の乱用で機能実装に集中しがち
- インタラクティブだが、その分より多くの管理(babysitting)が必要
- すばやく動くコードを作るが、行動前に十分に考えない
- コンテキストを積極的に手動管理しても(1Mコンテキストは初心者向けの罠で、4分の1以下に保つべきだと判断)、ほぼ毎セッションでCLAUDE.mdを露骨に無視することがあった
- 作業を半端な状態で残すことがしばしばある
- 例: 8つのテストスイートの非同期パターン移行時、多くは処理するが一部を旧パターンのまま放置
- 新機能のために新しいファイルをほとんど作らず、既存ファイルに関数を追加し続ける傾向
- 強いOO原則と、1ファイル600行以下を保つ好みと衝突
- テストが壊れるとプロンプトなしで勝手に修正しようとする傾向があり、「テストが壊れたら止まって私に聞け」という指示を多く追加する必要があった
- 作成するテストの95%は有用だが、5%は誤った挙動を固定化してしまい、時間が経つとそれが蓄積する
Codexの使用経験(GPT-5.4)
- 経験5〜6年の若手シニアエンジニアのような印象で、別途指示しなくても自分で立ち止まり、コードをよりきれいに手直しする
- Claudeより3〜4倍遅い(同一作業基準)
- より慎重かつ意図的に作業し、Claudeのように「god class」を肥大化させず、自動的にコードをより引き締まった形に整理する
- 作業中に自分の前提を見直し、途中で手直しして整理する
- 予想していなかった付加価値のある作業を自発的に行うこともある
- AGENTS.mdを無視するのを一度も見たことがなく、セッション中に指示を上書きしようとしても認めない
- 十分な能力を示したため、作業を走らせておいて完了後にレビューする方式へ切り替え可能で、リアルタイム監視が不要
総合比較
- Codex Pro x5の使用量上限はClaude x20と同程度
- Codexは目に見えて遅く、インタラクティブ性は低いが、より慎重で、Claudeは速くてインタラクティブだが管理が必要(babysitting)
- Claudeは1セッションでより多くの作業量をこなせるが、Codexの作業品質の方が高い
- Claudeは極めて高速なプロトタイピングとビルドが可能だが、数日ごとにリファクタリングのガイドが必要
- Codexもアプリが成長すればリファクタリングは必要だが、「どんな問題を整理すべきか」という段階ではなく、**「アプリが大きくなったのでリファクタリングする時期」**という段階
- 低〜中程度の複雑さのプロジェクトでの雰囲気コーディングには、Claudeの方が速く完成させやすい
- エンタープライズソフトウェアの構築にはCodexの方が適している
- どちらのツールも有用だが、ClaudeはCodexよりも熟練し、集中力のある運転手を必要とする
- ソフトウェアエンジニアリングをまったく知らない場合、両ツールとも良くない成果物になりやすい
📋 Redditコメントの主な論点整理
2つのツールを併用する戦略(最も多く言及)
- Claudeで草案・高速作業 → Codexでコードレビューを行うクロスチェックのワークフローが最も人気のあるパターン
- 「Claudeが書いたコードをCodexにレビューさせ、その逆も試してみるべき」— 2つのモデルが同じ形で幻覚(hallucination)することは非常にまれ
- Claudeのトークンを使い切った後、Codexへバトンパス(baton-pass)戦略を使うユーザーもいる
save-state.mdとnext-task.mdに状態を保存してCodexが引き継ぐ構成で、切り替えのたびにハンドオフ品質が改善
- Codex CLIをMCPサーバーでラップし、Claude Code内でCodexとの協業を自動化する事例もある
- Claudeの作業後にCodexが提案を返し、それをClaudeが実装する方式で、コード品質が劇的に向上
- 一日中Codexで作業し、仕上げ段階でClaudeで磨き込みを行ってから再びCodexに戻る流れも有効
Codexの長所への共感
- Claude Codeを20x($200)プランから5x($100)へダウングレードし、Codexの$100プランを併用するユーザーも登場
- GPT-5.4とOpus 4.6の間に深刻な品質差は感じられず、問題によっては50:50に分かれる
- 「ただ任せてコーヒーを飲んで戻ってくると終わっている」— **自律実行(fire-and-forget)**の面ではCodexがOpusより優位
- AGENTS.mdの指示をCodexが拒否するほど徹底して順守し、明示的に上書きを指示しない限り無視しない
- 純粋にCodexだけでプラン + 実装 + 別のCodexインスタンスでレビューする体制へ移行してから、結果がより良くなったという報告
Codexの短所
- ロボットのようなコミュニケーションスタイルが最大の不満
- Pythonのdict値
[0.1, 0.3, 0.5, 0.7, 0.9]を1行で書かず、各値を1行ずつ並べるように出力する - RL学習が「箇条書きを多く使うほど良い」という方向で報酬を与えたのではないかという推測
- コミュニケーション設定を調整しても、極端(少なすぎる vs 多すぎる)の間を行き来し、適切な水準を見つけにくい
- Pythonのdict値
- ユーザーに絶えず反論しようとする傾向 — 経験10年以上の開発者が明確に指示しても、異議を唱え続け、結局それ自体で良い代案も示せない
- 会話が際限なく長引く問題 — 作業に集中できず散漫になる
- 大きな機能実装時に多くの部分を見落とし、既存コードベースを十分に把握できていないことがある
- フォーマッタが存在するのに新しいフォーマッタを勝手に作成したり、ViewModelにハードコードされた文字列を挿入したりするなど
- 機能面ではClaude Codeと比べてhooks、MCP対応、プラグインなどが遅れており、乗り換えると後退した感覚がある
Claude Codeの慢性的な問題への共感
- Claudeがユーザーの指示を無視し、自分のやりたいように振る舞うパターンへの広範な同意
- 「Claudeは、あなたが望んでいると想像したことを実行しようとする」— 指示順守の信頼性が低い
- リスト100個のオブジェクトをハードコードして成功だと主張し、それを防ぐhooksさえ回避する事例も目撃されている
- ここ数か月、Claudeは複雑なコードで本当の問題を見つけられない傾向が強まっている
- 根本原因ではなく症状だけをパッチしながら、「問題を見つけた」と自信満々に主張する
- CodexがClaudeの自信たっぷりだが誤った分析にミスリードされることもある
- Claudeのクレジット消費速度が速すぎて、サブスクリプションを解約したというユーザーもいる — 学習する時間さえ確保できない
反対意見: Claudeが依然として優位だという見方
- Opus 4.6はより慎重で深い思考を示し、設計・アーキテクチャ段階ではGPT-5.4より分析品質が高いという経験
- GPT-5.4が見つけられなかった問題を、Opusがレビューで追加発見することがある
- ただし、最近のClaudeモデルが**「努力をあまり使わないように」修正された**といううわさと関係している可能性もある
- Clean Architectureを求めれば、Claudeも新しいファイルを積極的に作成し、god class問題も発生しない
- どちらのツールもアーキテクチャを順守すれば、コード品質はほぼ同等で、差は速度と使いやすさに現れる
- 体系的なワークフロー(plan mode + カスタムスキル + coderabbit/sonarqubeフィードバック)を構築すれば、他のユーザーが不満をこぼしている時期でも良いコードを生み出し、上限にも引っかからない
その他の興味深い意見
- 「Anthropicチームがあれほど多くの機能をリリースできるのは印象的だ。コードの100%をClaudeが書いていることを考えれば」(皮肉)
- 「Codexでコーディング → Claudeでレビュー → Geminiもレビューに投入」— 3モデル交差レビュー戦略で、SonnetがOpusの見落としを拾うこともある
- 「おそらくMythos(次世代モデル)が出れば、こうした取り扱いの難しさは減るだろう」という期待
18件のコメント
どちらにせよHITLは必要です。(少なくとも今日までは)
頼むから、Ralph Loop だの何だのという話はしないでほしいです。
Codex だけ使っていますが、私が感じていることとまったく同じですね。
自分の傾向にも合っていて、うまく使えています。
カカオトークのChatGPTが終わったらClaudeに乗り換えようと思っていたのですが、
どうもClaudeの欠点は自分の傾向に合わない気がしますね..
ClaudeとCodexのユーザーでは、主に使っている言語に違いがあるのでしょうか。
> ユーザーに絶えず反論しようとする傾向 — 経歴10年以上の開発者が明確に指示しても、ずっと異議を唱え続け、結局は自力で良い代案も提示できない
草
使い方の違いもありそうですね。開発者の傾向によって扱い方が違い、好みも異なるのと同じように。多く使っているうちに特定のモデルと作業するフローに慣れてしまって、別のモデルがぎこちなく感じられることもありそうです。
特定のモデルにこだわる理由はない気がしますね〜
適用するドメインによって違うのではないでしょうか?
私が現在進めている rhwp のように、1mm のレンダリング差を詰めて処理するときに Codex を使うと壊れます。現時点では高難度の作業は Claude Code のほうが優れていますが、手順に沿ってある程度のレベルまで処理できればよいワークフローとフレームワークだけで済む Web アプリ開発では、Codex を使うほうが精神衛生上よいと私は感じています.
愛用しています
Macではビューアより読み込み速度も速くて最高です!
圧倒的にありがとうございます
おお、よく使っています。素晴らしいプロジェクトをありがとうございます。
rhwp、活用させていただきます。
Codexが細かいところまで丁寧なのは同意です。Claudeで書いてCodexでレビューするやり方をおすすめします。時間はかなりかかりますが、トイレに行く前や会議の前に走らせておくと、完了率も高いですね。
私もこうしています。もう少し詳しく言うと、100ドルのClaudeと200ドルのCodexを使う構成にして、Claude Code Opusで計画 → Sonnetで実装 → Codexでレビュー → Opusでレビューを検証 → 再びSonnetで実装 → Codexでレビュー(以下繰り返し)という形で回し続けるように、もうスキルとして作ってしまいましたが、満足しています。
私もこのように使っています。ただ、役割を1つのモデルに固定するというより、クォータに最も余裕がありつつ強力なモデルへ先に割り当てる形で運用しています。
両方使ってみて、私はむしろその逆だと思っていたのですが、そうでもないみたいですね
私が使ったときは、Codexは指示を無視することが多かったんですよね
最近Anthropicが4.6 Opusの性能を下げて、変わったような気もします
逆ではないですか? シニアが思ったより足りないですね
Claude Codeの慢性的な問題、これを経験したことがないんですね。Redditでもいつも大騒ぎになっています。私はcodexのほうがより良い体験でした。