Opus 4.5は、これまで体験したAIエージェントとはまったく異なる

(burkeholland.github.io)

23 ポイント投稿者 GN⁺ 2026-01-07 | 3件のコメント | WhatsAppで共有

Claude Opus 4.5は、従来のAIコーディングエージェントと異なり、開発者の介入なしでも完成度の高いアプリケーションを構築できるレベルの自律的な開発能力を示した
単純なWindows画像変換ユーティリティから、画面録画・編集ツール、AIベースの投稿自動化アプリ、注文追跡および経路計算アプリまで、実際に動作するプロジェクトを短時間で完成させた
Opus 4.5は、Firebaseバックエンドの構成、エラーログの分析と自動修正、GitHub Actionsのデプロイ設定など、複雑な開発作業を自ら処理した
筆者はコード構造を完全には理解していないが、Opus 4.5がバグを自力で解決し、リファクタリング提案まで行うことを確認した
この体験を通じて、AIが開発者を完全に代替できる可能性が現実味を帯びており、AI中心の開発時代への転換点であることを強調している

Opus 4.5の登場と従来のAIエージェントとの違い

従来のAIエージェントは、しばしば非効率なコード生成と反復的なエラー修正のために生産性が低かった
- 何度もコピー＆ペーストとエラー修正を繰り返した末に、コードベースが壊れてしまうことが多かった
Opus 4.5はこうした問題を克服し、最初から大半のコードを正確に書き上げ、エラー発生時にはCLIを通じて直接ビルド・修正を繰り返した
筆者はこれを「AIコーディングの約束が実際に実現したモデル」と評価している

プロジェクト1 – Windows画像変換ユーティリティ

Opus 4.5は、Windowsエクスプローラーの右クリックメニューから画像形式を変換する機能を持つユーティリティを、1回の依頼で完成させた
- dotnet CLIを使ってビルドとエラー修正の過程を自動化
- XAMLエラーだけはVisual Studioで確認し、コピーして渡した
配布用Webサイト、PowerShellインストールスクリプト、GitHub Actions自動デプロイパイプラインまで構成した
ロゴ制作にはFigma AIを使い、OpusがSVG変換およびアイコン形式用スクリプトを作成した

プロジェクト2 – 画面録画および編集ツール

LICEcapに似たGIF録画ユーティリティを出発点として、動画・画像編集機能まで拡張
- 図形追加、切り抜き、ぼかし処理などの編集機能を数時間で実装
ソースコードはGitHubで公開されており、筆者は「数時間でかなりの水準まで開発した」と述べている
Opus 4.5がUIだけでなくバックエンド統合作業もこなせることを確認した

プロジェクト3 – AI投稿自動化アプリ

Facebookページに自動で投稿を上げるAIベースのモバイルアプリを、Opus 4.5で開発
- 写真をアップロードすると、AIがキャプション生成と予約投稿を実行
- Firebaseバックエンド、認証、ストレージ、クラウド関数をOpusがCLIで直接構成
筆者は、ブラインドを取り付けている間にOpusがアプリを完成させたと説明している
Opusはエラーログを自動分析して修正し、管理用ダッシュボードまで生成した
従来なら数か月かかっていた作業を数時間で完了した

プロジェクト4 – 注文追跡および経路計算アプリ

Gmailの注文メールを解析し、予定・経路・運転時間・税務用走行記録を自動計算
Opus 4.5がGoogle認証の統合とFirebase連携を一度に処理
筆者は「手作業では苦痛だった作業をOpusが完璧にこなした」と評価している

コード理解と品質の問題

筆者は、自分がSwiftを知らないにもかかわらずアプリが完璧に動作したと述べている
Opus 4.5は自らバグを見つけて修正し、筆者はコード内部の構造を知らなくても問題なく開発を進められた
コード品質への疑問に対しては、「AIが読んで保守するコードなら、人間の可読性は重要ではない」と記している
VS Code内のAI専用コード作成プロンプトを使い、LLMが理解しやすい構造中心のコードを生成した

AI中心コーディングの原則

プロンプトは「AIが作成・保守するコード」を前提としている
- 単純な構造、明確な入口、最小限の抽象化、低い結合度を強調
- 明示的な制御フロー、簡潔な関数、構造化ログ、再生成のしやすさを重視
コードをリファクタリングする際、Opusは**優先順位別の改善項目（高・中・低）**を文書として整理
セキュリティ点検時には、APIキー、ログイン処理、機密データ保存の有無を確認するよう依頼
- 筆者はセキュリティの完全性について「約80%程度で、まだ不安がある」と述べている

AI開発時代への転換

筆者は「数時間で作れる現実に、興奮と虚しさが同時にある」と表現している
以前は「AIが開発者を代替することはできない」と信じていたが、今ではその可能性を否定できないと認めている
結論として、AI中心の開発環境でためらわず実際に作ってみるべきだと強調
最後に、「APIキー管理だけは自分で責任を持たなければならない」と警告している

要約: Opus 4.5は単なるコード補助を超え、完全なアプリケーションを自律的に設計・実装・デプロイできるAI開発者レベルのモデルと評価されている。筆者はこれを通じて、AIが人間の開発者を代替しうる現実的な可能性を直接体験したと明かしている。

3件のコメント

wegaia 2026-01-08

Opus 4.5 に1行のコードを直すよう頼んだら、そのコードの上にあった設定コードを10行ほど勝手に消していて、なぜ消したのかと聞いたら、ただ意味のないコードだと思って消した、と…。

GN⁺ 2026-01-07

Hacker Newsの意見

中堅レベルのエンジニアが担う仕事は、単に新しいアプリを作ることではなく、スケーラビリティと理解しやすさを考慮した構造を設計することだ
Opus 4.5は「アプリを1つ作って」といったレベルの依頼はうまく処理するが、実務のように既存コードへ機能を追加しようとすると、おかしな抽象化を使ったり、何度も修正してようやく望む品質になる
非技術者は「動けばいい」と考えるかもしれないが、エンジニアはそれでは不十分だと分かっている
- 「正しいやり方」には2種類ある — 文脈に合ったやり方と、エンジニアたちが一般化して考えるやり方だ
  昔、チームで「正解」を巡って争っていた記憶がある。結局、外部の人が来て、ビジネス観点で何が重要かを思い出させてくれた
  ときには、多少雑でも素早く作って方向性が合っているか検証するのが、本当の意味で「正しい」方法であることもある
  問題は、最初から過剰設計したり、逆にマネージャーがリファクタリングを止めたりするときに起きる。結局、バランスが鍵だ
- こういうプロジェクトを見ると、GitHubにある画像変換ツールやマインスイーパークローンをそのままフォークすればよさそうなのに、わざわざLLMにやらせるのは著作権回避にしか見えない
- 「コード品質はもはや重要ではない」と主張する人たちもいる。今日テストさえ通れば十分で、明日全面リファクタリングが必要なら、少し多めにクレジットを使って数時間で作り直せばいい、という考え方だ
- Opus 4.5が既存コードベースの慣用的なパターンをうまく踏襲するのを見て驚いた
  隣接するコードを読ませるよう明示的に指示すると、ずっと良く動く。たった1〜2文足すだけでも十分だ
- 既存コードに機能を追加するとき、望む抽象化を直接指示すると段階的にうまく進む
  それでも個人的にはGPT‑5.2のほうが好みだ
多くのエンジニアは、Claude CodeのようなLLMエージェントの現在の性能を過小評価している
私たちのチームはClaude Codeでコードレビュー、ESLint自動化、PRチェックリスト、ドキュメント同期、テストカバレッジ確認まで自動化した
チケットの分類も自動で処理しているので、エンジニアが作業を始める時点で半分は終わっている状態だ
サンプルリポジトリはclaude-code-showcaseにある
2026年ごろには、これが業界の標準ワークフローになると確信している
- フロントエンド（React、HTML、モバイル）と低レベル（OpenGL、io_uring、libevなど）の領域では、LLM活用体験の差が大きい
  Opus 4.5はJSアプリはうまく作れるが、C++で2003年の論文のシャドウアルゴリズムを実装しろと言うと完全にめちゃくちゃになる
  Fabien SanglardのDoom3 BFGスレッディングレビューまで食わせても、役に立たないコードしか出てこない
  結局、「私たちがLLMを過小評価している」のではなく、「まだ実用的ではないので待っている」だけだ
- 多くの人は初期にAIコーディングを試して、エラーと挫折でやめてしまった
  だがOpus 4.5は一段上だ。エラーがずっと少なく、その大半は些細なミスのレベルだ
- 大学で学生を教えながらCursor、Claude Code、Codexを試したが、
  AIのおかげで2週間かかるプロジェクトを5時間で完成できた。
  AIがなければ、そもそも試そうとすらしなかったはずだ
- AIが作ったREADMEにわざわざディレクトリ構造を書くのはおかしい。treeコマンドで全部分かるのに
- 今後は「プログラマー」という職業そのものが減って、道具を使って創造する能力のほうが重要になりそうだ
Opus 4.5はかなり使い込んだが、複雑なコード解析には卓越している一方で、まだ人間レベルの問題解決力ではない
たとえばグラフレイアウトアルゴリズムを正確に特定できても、そのバグを自力で直せはしない
コード解析や知識補強には素晴らしいが、複合的な問題解決はまだ無理だ
- Copilotはトークン節約のために文脈を切り捨てる構造なので限界がある
  本当の性能が欲しいならAPIを直接使う必要があり、PR1件で3桁ドルのコストがかかることもある
  参考: models.dev
- CopilotがOpus 4.5利用時にトークンを3倍計算するので、月間割り当ての半分を1週間で使ったのには驚いた
- AIをコード解析ツールとして使うだけでも十分価値がある
  ドキュメント生成も人間より優れていて、エラー率も人間より低いほうだ
- サードパーティツール経由で使うと挙動が違う
  Claude CodeのサブスクリプションでVS CodeやCursorから直接使ってみることを勧める
休暇中にGPT‑5.xでいくつかのプロジェクトを進めた —
Swift自動化ツール、ARM JITエンジン統合、シンセサイザープロトタイプなど
GPT‑5.2とCodex系はOpusと同じくらい強力で、CIワークフロー全体を一度に構成できるほどだ
私のように計画を立ててコードをレビューする習慣がある人間にとっては、生産性を倍増させる道具だ
- GPT‑5.2はCLIユーティリティの存在や機能を**幻覚（hallucination）**することが多かった
  実際にソースコードを掘って、誤りを確認しなければならなかった
- Gemini 3 Pro (High) やAntigravity、Amp、Junieのようなツールも印象的だった
  Ruby向けのRatatuiバインディングライブラリを2週間で完成させた
  Antigravityは複数エージェントを並列で動かし、文脈圧縮と自動管理を行う
  こうした高機能ツールは、無料版とはまったく別物の体験をもたらす
  Unixツールとgit CLIを併用すれば、文脈を小さく保って効率を最大化できる
- LLMはバックエンド・CLIコードには強いが、HTML/CSSやJSフロントエンドのように視覚的フィードバックが必要な領域では依然として弱い
  構造化された入出力には強く、「感覚的な完成度」が必要な部分では失敗する
最近HNで、LLM関連の否定的なコメントが急減したように感じる
だが共有されるプロジェクトの大半は、技術デモのレベルで止まっている
文脈を積み上げること、つまりユーザー要求を理解することは、依然として人間の役割だ
週末にアプリをいくつも作れても、それを保守する人はほとんどいない
- 否定的なコメントが減ったのは、繰り返される「新モデルで1000倍改善」論争にみんな疲れたからかもしれない
- 収益化できる製品を作っている人たちは、静かに開発中で共有していないだけかもしれない
- 本番デプロイと保守には莫大な努力が必要だ
  Karpathyも似た経験を共有していた — プロトタイプは簡単でもデプロイは難しいということだ
  個人用ツールなら、完成度より問題解決重視で進めても十分だ
- AIを使う人ほど、最後の20%にある統合的思考が必要な区間で詰まる
  思考をAIに任せると、自分で考える力が弱まる
- ゲーム開発でも80/20の法則はそのままだ
  アイデアの検証までは速いが、完成度の高い製品に仕上げるには依然として人間の忍耐が必要だ
Opus 4.5は単なる知識量よりも、自律的な問題解決能力が大きく向上している
明確に定義された問題ならほとんど解けたし、リバースエンジニアリングまでこなした
最近は自分で直接コーディングするより、仕様を書いてOpusに実行・改善させるよう指揮して仕事をしている
- 公開している例としてはcoding-agent-benchmarkと
  C64ゲームのリバースエンジニアリングプロジェクトがある
- 「過剰設計」を防ぐ方法が気になる
- 私はClaudeのWebアプリをラバーダックデバッグ用に使うのが効率的だ
  Claude Codeはコードベース全体を見られるので強力だが、クォータ消費が速すぎる
  それでWeb版に戻った
- 私も最近のサイドプロジェクトは、ほとんどこのやり方で進めている
Opus 4.5でPythonベースのJavaScriptインタプリタ、WebAssemblyランタイム、Rust文字列検索ルーチンのC移植まで試した
ほとんどスマートフォンで実験したが、驚くような結果だった
- 「Pythonで書かれたJSインタプリタ」がBellardのMQJSベースなら、その出典を明記すべきだ
  参考: micro-javascript
- 視覚的推論が必要な問題（例: スライムモールド経路アルゴリズム）では、まだ弱い
- 「RustルーチンをCに移植してより速くした」という結果が気になる
- 「JavaScriptでPython 3インタプリタを書け」と言ったら、テストまで通してきて驚いた
- だが最近は大きな差を感じない。モデルは停滞し、その代わりエージェントフレームワークが進化しているようだ
  例の動画: Mastodonリンク
開発者が本当に雇われる理由は、責任を持てることだ
StackOverflowやGitHubからコードをコピーしていた時代にも道具はあったが、
問題が起きたときに責任を取るのは結局人間だ
- 今は責任を負える人が最も重要な存在だ
  信頼できる同僚がAIコードに自分の名前を載せられるなら、それでいい
- だが業界は責任よりも、新しいものを作る人をより高く評価する
  保守は軽視されがちだ
- 今やリアルタイムコードレビューが基本モードになった
  週末にSaaSの80%をAIで作り、核心部分だけ自分で書いた
  22年前に書いた言語仕様を貼り付けたら、Opusが3分でパーサーとテストを完成させた
  私たちは結局、採掘産業のように変化へ適応しなければならない時点に来ている
- だから私はAIを作者というより編集者・レビュアーとして使うほうがしっくりくる
  コードは自分で書き、AIには問題探索とテスト提案を任せる
Opus 4.5が私を助けて新しいプログラミング言語を作っている
低レベル実装まで議論しながら、まるでペアプログラミングのように協働している
だが大規模コードベースでは、依然として人間のシステム全体を制御する力が必要だ
そうでないとOpusが仕様を変えたり、その場しのぎで覆い隠したりする
これは万能ではないが、私の人生で最も生産的な年になる気がする
同時に、この技術が普及すれば、小規模なWebコミュニティの復活も期待できる
- いつかAIが自分でコードを保守するかもしれないが、
  それまでは人間にとって理解しやすい言語のほうが重要だと思う
- 「そんなものを作ることに意味があるのか」という懐疑的な見方もある
- 「その小説を誰が買うんだ」という冗談まじりの反応もあった
Opus 4.5に「プロジェクト全体を改善しろ」と任せたら、的外れなアーキテクチャと大量のバグが生まれた
テストやバグ検出には素晴らしいが、全体構造の設計を任せると後悔する
- その代わり、「改善案を提案しろ」と指示し、その中から良さそうなものを選んでClaudeに説明させた上で実装させるのが効率的だ
- 「何を改善するか」を明確に分かっているときに最もうまく動く
  「何でもいいから改善してみて」は最悪のプロンプトだ
- こうした事例は、モデルの弱点を示す良い例だ
  以前、誰かがエージェントに一晩中改善を続けさせた結果、10万行のゴミコードを得た事例もあった
  だから計画ベースの開発が重要だ
  参考: The Highest Quality Codebase
- Opusを含むたいていのモデルは、既存コードの改善は苦手で、新規コードを書くのは得意だ
- AIのコードレビュー提案の90%は役に立たないが、残り10%は本物の問題を見つけてくれる
  無限ループのように延々と修正提案を出し続けることもありそうだ

2026-01-07

[このコメントは非表示になっています。]