- PRごとにマルチエージェントチームを投入し、人が見落としやすいバグを深く検出する Code Review 機能をリサーチプレビューとして提供開始
- Anthropic のエンジニアのコード生産量がこの1年で200%増加し、コードレビューがボトルネックとなって、多くの PR が深いレビューではなくざっと目を通すだけにとどまる問題が発生
- 導入前は PR の 16% のみが実質的なレビューコメントを受けていたが、導入後は54%に上昇し、PR の承認自体は引き続き人間が担当
- 大規模 PR(1,000行以上)では 84% が指摘事項を含み、平均 7.5 件のイシューを報告し、誤検知率は 1% 未満
- レビュー費用はトークン使用量ベースで PR あたり平均**$15〜25**程度で、月間組織上限やリポジトリごとの制御などのコスト管理機能を提供
コードレビューボトルネックの問題
- Anthropic のエンジニア1人あたりのコード生産量がこの1年で200%増加し、コードレビューが開発プロセスのボトルネックとして浮上
- 顧客企業でも毎週同じ問題が訴えられており、開発者が過負荷状態の中で多くの PR が深いレビューではなくざっと確認するだけに終わっている
- 既存のオープンソース Claude Code GitHub Action よりも、より徹底的でコストの高い選択肢として、すべての PR に信頼できるレビューアーを付けるために開発
- 導入前は PR の 16% のみが実質的なレビューコメントを受けていたが、導入後は**54%**に上昇
- PR の承認は引き続き人間が担当し、レビューアーが実際に出荷されるコードを十分にカバーできるよう、そのギャップを埋める役割を果たす
動作方式
- PR が開かれるとエージェントチームをディスパッチし、並列でバグを探索
- 各エージェントがバグを検証して誤検知をフィルタリングし、重大度基準で順位付け
- 結果は PR に単一の高シグナルな概要コメントと、特定のバグに対するインラインコメントとして伝達
- PR のサイズに応じてレビュー規模が自動調整され、大きく複雑な変更にはより多くのエージェントと深い分析を、小さな変更には軽量パスを適用
- テスト基準での平均レビュー所要時間は約20分
実際の適用事例
- 数か月間の内部運用の結果、大規模 PR(1,000行以上)では 84% が指摘事項を含み、平均7.5件のイシューを報告
- 小規模 PR(50行未満)では 31% が指摘事項を含み、平均 0.5 件のイシューを報告
- エンジニアは指摘事項に概ね同意しており、誤検知と判定された割合は 1% 未満
- ある事例では、本番サービスの1行の変更が通常ならすぐに承認されかねない diff だったが、Code Review がクリティカルとしてフラグ
- その変更はサービスの認証を壊しかねない失敗モードで、diff では読み流しやすいものの、指摘されると明白な問題だった
- マージ前に修正され、当該エンジニアは1人では見つけられなかっただろうと共有
- TrueNAS のオープンソースミドルウェアで、ZFS 暗号化リファクタリングの PR に対して、Code Review が隣接コードの既存バグを発見
- 同期のたびに暗号化キーキャッシュを静かに消去する型不一致の問題
- PR が触れたコードに潜んでいたイシューであり、変更セットをスキャンする人間のレビューアーが即座に見つけるタイプではなかった
コストと制御
- 深さを最適化しているため、Claude Code GitHub Action のような軽量ソリューションよりコストが高い
- レビューはトークン使用量ベースで課金され、PR のサイズと複雑さに応じて平均**$15〜25**
- 管理者向けのコストおよび利用量の制御オプション:
- 月間組織上限: 全レビューにわたる月間支出総額を設定
- リポジトリごとの制御: 選択したリポジトリでのみレビューを有効化
- 分析ダッシュボード: レビュー済み PR 数、受け入れ率、総レビュー費用を追跡
開始方法
- Team および Enterprise プラン向けに**リサーチプレビュー(ベータ)**として提供
- 管理者は Claude Code の設定で Code Review を有効化し、GitHub App をインストールした後、レビューを実行するリポジトリを選択
- 開発者は有効化後、新しい PR に対して自動でレビューが実行され、追加設定は不要
8件のコメント
最近の Anthropic のリリース速度はすごいですね。
開発ツールを改善しながら、それによって自社の開発自体もさらに高速化するフライホイールの構築が完成した感じです。
毎日何かをひとつずつ投入してくる、いかにもスタートアップらしい雰囲気が強く感じられます。
OpenAI にかなり刺激を与えていそうです
とても楽しそうに仕事をしているのが伝わってきます
コストさえ下げられれば良さそうですね。
Claudeでコードを生成し、Claudeでコードをレビューして..
個人プランは未対応なんですね。今後も対応しないのかな?
再帰的改善は始まったようだ
Claude先生たち、人間的にちょっと速すぎるんじゃないですか……ううっ
Claude:人間が……いや、違うから;;;;