Claudeと数カ月格闘した末に、Codexはバイブコーダーの夢のように感じられる
(reddit.com)- 3カ月間 Claude/Anthropic でコーディングしてきたが、repo規模の作業では信頼性が低下し、別個の監視ワークフローが必要になった
- 4.7期 には、実際の実装は約40%なのに完了したと幻覚したり、stub/placeholder 周辺で過剰な自信を見せたりした
- Max x20 のコストを払っていても、生産性向上より トークン消費 と監督負担のほうが大きくなり、5月12日に GPT-5.5 + Codex へ切り替えた
- Codex は過剰なプロンプトなしでも 隣接コード をよりよく理解し、リグレッションを捉えるため、lint/test ループや大規模リファクタリングが管理可能になった
- 移行は CLAUDE.md→AGENTS.md への移動と hooks の維持程度で終わり、そのワークフローでは戻るつもりはない
ClaudeからCodexへ切り替えた後に変わった開発フロー
- この3カ月間は主に Claude/Anthropic でコーディングしており、Opus 4.6 のリリース当時は、アーキテクチャ理解、大きなコンテキスト処理、素早い機能実装が強みとして感じられた
- 時間がたつにつれて repo規模の作業 での信頼性が低下し、モデルを監視するための別個のワークフローが必要になった
- 隣接ファイルのリグレッションを確認する複数のエージェント
- 主要コミットごとに付く「senior reviewer」エージェント
- 実装ドリフトと未完成実装を確認する継続的検証
- モデルが完了したと自信満々に言った作業を捕まえる lint/test パイプライン
- 4.7期 には、個人ワークフローで問題がさらに大きくなった
- 実際の実装は約40%水準なのに、機能が完了したと幻覚する
- stub/placeholder 周辺で根拠のない自信を見せる
- 現実的に可能な変更に対しても「別セッションが必要だ」と言ったり、過剰なスケジュールを見積もる回避行動が現れた
- Max x20 の料金を払っていたが、生産性向上より トークン消費の増加 と監督負担の増加のほうが大きく感じられた
- 結局 5月12日に GPT-5.5 + Codex へ切り替え、AIコーディングは数カ月ぶりにストレスより快適さに近いものになった
GPT-5.5 + Codexで実感した利点
- Codex は過剰なプロンプトがなくても 隣接コード をよく理解し、リグレッションをより的確に捉える
- lint/test のフィードバックループがよりタイトに機能し、大規模リファクタリング も実際に管理可能になった
- インフラ判断やアーキテクチャ変更が、断片的な印象ではなく 一貫した方向 へとつながり、完了したふりをするより実際に作業を終えるほうに近い
/fastは週間使用量をすぐ消費しそうなのでたいてい避けるが、high/xhigh だけでも生産性向上は大きかった- リポジトリ全体の zip を GPT-5.5 Pro extended thinking に入れると、他モデルが繰り返し失敗した問題の解決に役立つ
- 移行にも大きな摩擦はなかった
- 誰もが今すぐ移行すべきという意味ではないが、そのワークフローでは当面戻るつもりはない
1件のコメント
Hacker Newsの意見
AIツールは、好きなスポーツチームを選ぶように片方だけを応援するものではない。両方、できれば全部に慣れて、その週にいちばん合うものを使えばいい
来月には変わっているかもしれない。私はサブスクを2つ使っているが、誰もがそうできるわけではないことも分かっている
ツールはどれもそれなりに良くて、ある人は片方でより良い結果を得ることもあるし、言われている通り来週には完全に変わっているかもしれない
ただ、Kinguinで18か月プレミアム15€クーポンを見つけてGeminiも使っているので、割り当て上限に達したら一部の作業はGeminiに回している
Opus 4.7は、有能で生産的なふりをすること、そして見栄えのするパフォーマンスに焦点が合っている感じがする
Codexは実際に仕事を片づける
作業フローをもう少し共有してもらえるとうれしい。何をどうやっているのか学んで真似してみたい
なぜリポジトリ全体をGPTに入れるのか、どんな技術や本を使っているのかも気になる
自分はプロンプトを入れてCodexが終わるのを待ち、それから以前は自分でやっていた周辺の明白な作業をしたかどうかをもう一度聞く。するとその時点で処理して、その後は
/reviewと手動テストに時間を使い、また小さな作業単位に戻る。大きな機能にはplanを使い、VSCode拡張も使っていて、5.4と5.5の両方を試したが前者の方が合っている気がするここでOpenAI以外のモデルはどうやって使えるのか?
Claudeの問題は、Codexのように走り続けないことだ。Claudeの方が優れているかもしれないが、Codexは作業を最後まで完了させようとする
Claudeはただ止まってしまうし、仮にそういう能力があっても高すぎて大差ない気がする。もしかすると同じくらいか、もっと良いのかもしれないが、もうよく分からず今は使っていない。4.5は出た当初は最高だった
Codexが魔法のように感じられるのは自分も同じだったが、壊れるまで待てばいい。3日前までは自分もそう感じていたが、今は正直Claudeより悪くなった気がする
プロアカウント5つで24時間使っているので断言できるが、1週間前の状態ではなく、今は本当にかなり悪くなっている