Opus 4.5は、これまで体験したAIエージェントとはまったく異なる
(burkeholland.github.io)- Claude Opus 4.5は、従来のAIコーディングエージェントと異なり、開発者の介入なしでも完成度の高いアプリケーションを構築できるレベルの自律的な開発能力を示した
- 単純なWindows画像変換ユーティリティから、画面録画・編集ツール、AIベースの投稿自動化アプリ、注文追跡および経路計算アプリまで、実際に動作するプロジェクトを短時間で完成させた
- Opus 4.5は、Firebaseバックエンドの構成、エラーログの分析と自動修正、GitHub Actionsのデプロイ設定など、複雑な開発作業を自ら処理した
- 筆者はコード構造を完全には理解していないが、Opus 4.5がバグを自力で解決し、リファクタリング提案まで行うことを確認した
- この体験を通じて、AIが開発者を完全に代替できる可能性が現実味を帯びており、AI中心の開発時代への転換点であることを強調している
Opus 4.5の登場と従来のAIエージェントとの違い
- 従来のAIエージェントは、しばしば非効率なコード生成と反復的なエラー修正のために生産性が低かった
- 何度もコピー&ペーストとエラー修正を繰り返した末に、コードベースが壊れてしまうことが多かった
- Opus 4.5はこうした問題を克服し、最初から大半のコードを正確に書き上げ、エラー発生時にはCLIを通じて直接ビルド・修正を繰り返した
- 筆者はこれを「AIコーディングの約束が実際に実現したモデル」と評価している
プロジェクト1 – Windows画像変換ユーティリティ
- Opus 4.5は、Windowsエクスプローラーの右クリックメニューから画像形式を変換する機能を持つユーティリティを、1回の依頼で完成させた
- dotnet CLIを使ってビルドとエラー修正の過程を自動化
- XAMLエラーだけはVisual Studioで確認し、コピーして渡した
- 配布用Webサイト、PowerShellインストールスクリプト、GitHub Actions自動デプロイパイプラインまで構成した
- ロゴ制作にはFigma AIを使い、OpusがSVG変換およびアイコン形式用スクリプトを作成した
プロジェクト2 – 画面録画および編集ツール
- LICEcapに似たGIF録画ユーティリティを出発点として、動画・画像編集機能まで拡張
- 図形追加、切り抜き、ぼかし処理などの編集機能を数時間で実装
- ソースコードはGitHubで公開されており、筆者は「数時間でかなりの水準まで開発した」と述べている
- Opus 4.5がUIだけでなくバックエンド統合作業もこなせることを確認した
プロジェクト3 – AI投稿自動化アプリ
- Facebookページに自動で投稿を上げるAIベースのモバイルアプリを、Opus 4.5で開発
- 写真をアップロードすると、AIがキャプション生成と予約投稿を実行
- Firebaseバックエンド、認証、ストレージ、クラウド関数をOpusがCLIで直接構成
- 筆者は、ブラインドを取り付けている間にOpusがアプリを完成させたと説明している
- Opusはエラーログを自動分析して修正し、管理用ダッシュボードまで生成した
- 従来なら数か月かかっていた作業を数時間で完了した
プロジェクト4 – 注文追跡および経路計算アプリ
- Gmailの注文メールを解析し、予定・経路・運転時間・税務用走行記録を自動計算
- Opus 4.5がGoogle認証の統合とFirebase連携を一度に処理
- 筆者は「手作業では苦痛だった作業をOpusが完璧にこなした」と評価している
コード理解と品質の問題
- 筆者は、自分がSwiftを知らないにもかかわらずアプリが完璧に動作したと述べている
- Opus 4.5は自らバグを見つけて修正し、筆者はコード内部の構造を知らなくても問題なく開発を進められた
- コード品質への疑問に対しては、「AIが読んで保守するコードなら、人間の可読性は重要ではない」と記している
- VS Code内のAI専用コード作成プロンプトを使い、LLMが理解しやすい構造中心のコードを生成した
AI中心コーディングの原則
- プロンプトは「AIが作成・保守するコード」を前提としている
- 単純な構造、明確な入口、最小限の抽象化、低い結合度を強調
- 明示的な制御フロー、簡潔な関数、構造化ログ、再生成のしやすさを重視
- コードをリファクタリングする際、Opusは**優先順位別の改善項目(高・中・低)**を文書として整理
- セキュリティ点検時には、APIキー、ログイン処理、機密データ保存の有無を確認するよう依頼
- 筆者はセキュリティの完全性について「約80%程度で、まだ不安がある」と述べている
AI開発時代への転換
- 筆者は「数時間で作れる現実に、興奮と虚しさが同時にある」と表現している
- 以前は「AIが開発者を代替することはできない」と信じていたが、今ではその可能性を否定できないと認めている
- 結論として、AI中心の開発環境でためらわず実際に作ってみるべきだと強調
- 最後に、「APIキー管理だけは自分で責任を持たなければならない」と警告している
要約: Opus 4.5は単なるコード補助を超え、完全なアプリケーションを自律的に設計・実装・デプロイできるAI開発者レベルのモデルと評価されている。筆者はこれを通じて、AIが人間の開発者を代替しうる現実的な可能性を直接体験したと明かしている。
3件のコメント
Opus 4.5 に1行のコードを直すよう頼んだら、そのコードの上にあった設定コードを10行ほど勝手に消していて、なぜ消したのかと聞いたら、ただ意味のないコードだと思って消した、と…。
Hacker Newsの意見
中堅レベルのエンジニアが担う仕事は、単に新しいアプリを作ることではなく、スケーラビリティと理解しやすさを考慮した構造を設計することだ
Opus 4.5は「アプリを1つ作って」といったレベルの依頼はうまく処理するが、実務のように既存コードへ機能を追加しようとすると、おかしな抽象化を使ったり、何度も修正してようやく望む品質になる
非技術者は「動けばいい」と考えるかもしれないが、エンジニアはそれでは不十分だと分かっている
昔、チームで「正解」を巡って争っていた記憶がある。結局、外部の人が来て、ビジネス観点で何が重要かを思い出させてくれた
ときには、多少雑でも素早く作って方向性が合っているか検証するのが、本当の意味で「正しい」方法であることもある
問題は、最初から過剰設計したり、逆にマネージャーがリファクタリングを止めたりするときに起きる。結局、バランスが鍵だ
隣接するコードを読ませるよう明示的に指示すると、ずっと良く動く。たった1〜2文足すだけでも十分だ
それでも個人的にはGPT‑5.2のほうが好みだ
多くのエンジニアは、Claude CodeのようなLLMエージェントの現在の性能を過小評価している
私たちのチームはClaude Codeでコードレビュー、ESLint自動化、PRチェックリスト、ドキュメント同期、テストカバレッジ確認まで自動化した
チケットの分類も自動で処理しているので、エンジニアが作業を始める時点で半分は終わっている状態だ
サンプルリポジトリはclaude-code-showcaseにある
2026年ごろには、これが業界の標準ワークフローになると確信している
Opus 4.5はJSアプリはうまく作れるが、C++で2003年の論文のシャドウアルゴリズムを実装しろと言うと完全にめちゃくちゃになる
Fabien SanglardのDoom3 BFGスレッディングレビューまで食わせても、役に立たないコードしか出てこない
結局、「私たちがLLMを過小評価している」のではなく、「まだ実用的ではないので待っている」だけだ
だがOpus 4.5は一段上だ。エラーがずっと少なく、その大半は些細なミスのレベルだ
AIのおかげで2週間かかるプロジェクトを5時間で完成できた。
AIがなければ、そもそも試そうとすらしなかったはずだ
treeコマンドで全部分かるのにOpus 4.5はかなり使い込んだが、複雑なコード解析には卓越している一方で、まだ人間レベルの問題解決力ではない
たとえばグラフレイアウトアルゴリズムを正確に特定できても、そのバグを自力で直せはしない
コード解析や知識補強には素晴らしいが、複合的な問題解決はまだ無理だ
本当の性能が欲しいならAPIを直接使う必要があり、PR1件で3桁ドルのコストがかかることもある
参考: models.dev
ドキュメント生成も人間より優れていて、エラー率も人間より低いほうだ
Claude CodeのサブスクリプションでVS CodeやCursorから直接使ってみることを勧める
休暇中にGPT‑5.xでいくつかのプロジェクトを進めた —
Swift自動化ツール、ARM JITエンジン統合、シンセサイザープロトタイプなど
GPT‑5.2とCodex系はOpusと同じくらい強力で、CIワークフロー全体を一度に構成できるほどだ
私のように計画を立ててコードをレビューする習慣がある人間にとっては、生産性を倍増させる道具だ
実際にソースコードを掘って、誤りを確認しなければならなかった
Ruby向けのRatatuiバインディングライブラリを2週間で完成させた
Antigravityは複数エージェントを並列で動かし、文脈圧縮と自動管理を行う
こうした高機能ツールは、無料版とはまったく別物の体験をもたらす
Unixツールとgit CLIを併用すれば、文脈を小さく保って効率を最大化できる
構造化された入出力には強く、「感覚的な完成度」が必要な部分では失敗する
最近HNで、LLM関連の否定的なコメントが急減したように感じる
だが共有されるプロジェクトの大半は、技術デモのレベルで止まっている
文脈を積み上げること、つまりユーザー要求を理解することは、依然として人間の役割だ
週末にアプリをいくつも作れても、それを保守する人はほとんどいない
Karpathyも似た経験を共有していた — プロトタイプは簡単でもデプロイは難しいということだ
個人用ツールなら、完成度より問題解決重視で進めても十分だ
思考をAIに任せると、自分で考える力が弱まる
アイデアの検証までは速いが、完成度の高い製品に仕上げるには依然として人間の忍耐が必要だ
Opus 4.5は単なる知識量よりも、自律的な問題解決能力が大きく向上している
明確に定義された問題ならほとんど解けたし、リバースエンジニアリングまでこなした
最近は自分で直接コーディングするより、仕様を書いてOpusに実行・改善させるよう指揮して仕事をしている
C64ゲームのリバースエンジニアリングプロジェクトがある
Claude Codeはコードベース全体を見られるので強力だが、クォータ消費が速すぎる
それでWeb版に戻った
Opus 4.5でPythonベースのJavaScriptインタプリタ、WebAssemblyランタイム、Rust文字列検索ルーチンのC移植まで試した
ほとんどスマートフォンで実験したが、驚くような結果だった
参考: micro-javascript
例の動画: Mastodonリンク
開発者が本当に雇われる理由は、責任を持てることだ
StackOverflowやGitHubからコードをコピーしていた時代にも道具はあったが、
問題が起きたときに責任を取るのは結局人間だ
信頼できる同僚がAIコードに自分の名前を載せられるなら、それでいい
保守は軽視されがちだ
週末にSaaSの80%をAIで作り、核心部分だけ自分で書いた
22年前に書いた言語仕様を貼り付けたら、Opusが3分でパーサーとテストを完成させた
私たちは結局、採掘産業のように変化へ適応しなければならない時点に来ている
コードは自分で書き、AIには問題探索とテスト提案を任せる
Opus 4.5が私を助けて新しいプログラミング言語を作っている
低レベル実装まで議論しながら、まるでペアプログラミングのように協働している
だが大規模コードベースでは、依然として人間のシステム全体を制御する力が必要だ
そうでないとOpusが仕様を変えたり、その場しのぎで覆い隠したりする
これは万能ではないが、私の人生で最も生産的な年になる気がする
同時に、この技術が普及すれば、小規模なWebコミュニティの復活も期待できる
それまでは人間にとって理解しやすい言語のほうが重要だと思う
Opus 4.5に「プロジェクト全体を改善しろ」と任せたら、的外れなアーキテクチャと大量のバグが生まれた
テストやバグ検出には素晴らしいが、全体構造の設計を任せると後悔する
「何でもいいから改善してみて」は最悪のプロンプトだ
以前、誰かがエージェントに一晩中改善を続けさせた結果、10万行のゴミコードを得た事例もあった
だから計画ベースの開発が重要だ
参考: The Highest Quality Codebase
無限ループのように延々と修正提案を出し続けることもありそうだ