- Claude Code Security は、コードベースの脆弱性を検出し、人間によるレビュー向けのパッチ提案を提供するAIベースのセキュリティ機能
- 既存の 静的解析ツールでは見逃される複雑な脆弱性 を、人間の研究者のようにコードの相互作用とデータフローを追跡して検出
- すべての結果は 多段階の検証と深刻度評価 を経てダッシュボードに表示され、開発者の承認なしに自動修正されることはない
- Anthropic はこの機能を、Enterprise・Team の顧客およびオープンソースメンテナーに対し、限定的な研究プレビューとして公開
- AI が攻撃者よりも速く脆弱性を見つけられる時代に備え、業界全体のセキュリティ水準向上 を目指す
Claude Code Security の概要
- Claude Code Security は、Claude Code のWeb版 に組み込まれた新機能で、コードベースをスキャンして セキュリティ脆弱性の検出とパッチ提案 を行う
- 研究プレビューとして提供され、人間によるレビューを前提とする
- 既存のセキュリティチームが抱える 人手不足と脆弱性過多の問題 を解決するためのツールとして設計
- 既存の解析ツールは既知パターン中心だが、Claude は 新規でコンテキスト依存の脆弱性 まで検出可能
仕組み
- 従来の 静的解析 はルールベースで既知の脆弱性パターンを検出するが、ビジネスロジックの誤りやアクセス制御の欠陥 などは見逃しやすい
- Claude Code Security は、人間の研究者のようにコードの意味を理解して推論 し、複雑な脆弱性を捉える
- 検出結果は 多段階の検証プロセス を経て偽陽性を最小化
- Claude が自ら結果を再確認し、深刻度レベル を付与
- 検証済みの結果は ダッシュボード に表示され、チームがレビューと承認を行える
- 各項目には 信頼度スコア が含まれ、人間の承認なしに修正が適用されることはない
Claude のサイバーセキュリティ研究基盤
- Claude Code Security は、1年以上にわたって進められた Claude のセキュリティ研究 を基盤に開発
- Anthropic の Frontier Red Team は Claude を Capture-the-Flag 大会 に参加させ、Pacific Northwest National Laboratory と協力して AIベースのインフラ防御実験 を実施
- 最新モデル Claude Opus 4.6 を活用し、500件以上のオープンソースコードの脆弱性 を発見
- 数十年にわたり専門家のレビューを経ても残っていたバグを含む
- 現在、メンテナーとともに 責任ある開示プロセス を進行中
- Anthropic は社内コードのセキュリティにも Claude を活用しており、同じ防御能力を外部にも提供 するためにこの機能を開発
今後の展望
- AI が 世界の大半のコードベースをスキャン する時点は近い
- AIモデルは長期間隠れていたバグを効果的に検出できる
- 攻撃者も AI を使って脆弱性を素早く見つけられるが、防御側が先回りしてパッチを適用 すればリスクを減らせる
- Claude Code Security は、より安全なコードベースと業界全体のセキュリティ基準向上 に向けた一歩として提示される
参加とアクセス
1件のコメント
Hacker Newsの意見
Anthropicが脆弱性検出機能を出したのは驚くことではない。
すでにOpenAIはAardvarkを、GoogleはBigSleepを発表しているからだ。
重要なのは規模と精度だと思う。AnthropicはOpus 4.6で500件の「高深刻度」脆弱性を見つけたと言っているが、それが本当に深刻なのかは疑問がある。BigSleepは20件程度で、Aardvarkは数値を公開していない。
私がSemgrepを創業したとき、DARPA AIxCC大会でLLMベースの脆弱性検出参加者にコスト/脆弱性単価と混同行列の公開を求めていたのが印象的だった。こうしたデータがなければ、どのモデルが本当に先行しているのか判断しにくい。
LLMセキュリティエージェントにSemgrepやCodeQLのようなツールへのアクセス権を与えると、偽陽性率は大きく下がる。将来は人間がアプリセキュリティマネージャーとして、このような仮想セキュリティエンジニアエージェントを管理する形になる気がする。
私もパターンマッチング + LLMの組み合わせを使ってみたが、かなり効果があった。ただしSASTにしか適用できず、SCAやコンテナイメージのようにセキュリティチームのノイズの90%を占める領域は、依然として解決が難しい。
研究用としては面白いが、実務ツールとしては限界がある。
SquirrelScanというサービスで、人が書いたルールを基にエージェントが設定を動的に調整し、偽陽性の除去と検証を行う。
「Anakin: AI脆弱性スキャナーで世界を救うんだ」という冗談があった。
Padmeが「じゃあその脆弱性を修正するためにスキャンするのよね?」と聞くようなやり取りで、AIスキャナーの目的を風刺したユーモアだった。
オープンソースの代替としてはDeepAuditがある。
Anthropicには異常な利用パターンを検知する早期警戒システムを備えてほしい。
セキュリティ監査会社を運営する立場からすると、大手LLM企業が監査市場にまで参入してくるのを実感している。
zkao.ioのような私たちのAIベースのサービスも競争圧力を受けている。
将来は2つのシナリオがありそうだ。
1つは人間の監査人と開発者が消える世界、もう1つは人間の専門性とセンスが必要なニッチ市場へ進化する世界だ。
真面目な企業は今後も人との協業を望むだろうし、SaaS+人間支援の形で残る可能性が高い。
一方で「vibe coder」たちはClaude Code Securityのようなツールを使うだろうし、その品質も「vibe coding」並みになるだろう — 十分実用的だが完璧ではない。
現実的にはこちらのほうが可能性が高いと思う。こうしたツールは、私たちのような小規模な専門監査チームをさらに強くしてくれる。
Anthropicの説明の中で、「Claude Code Securityは人間の研究者のようにコードを読み、推論する」という部分が興味深い。
私たちのチームも静的解析とAIを組み合わせてきたので、このアプローチはセキュリティ自動化の進化方向だと思う。
「人間のように推論する」という主張は、誇張されたマーケティング文句に見える。
Claude Code Opus 4.5はOpenSSF CVE Benchmarkで約71%の精度を記録した。
私たちはSASTを一次フィルタとして使い、その後でデータフローグラフ・依存関係グラフなどの静的解析成果物をLLMに活用させている。
この方式は、単に「セキュリティ研究者のように振る舞え」と指示するよりはるかに効果的だった。新機能が公開されたらベンチマークを更新する予定だ。
競合製品には失望した。多くは既存の静的解析ツールが見つける問題を再検出しているだけで、AIスキャンでは偽陽性が多かった。
今回はもう少し良い結果を期待している。
AIがシニアセキュリティエンジニア並みの創造的思考をできるのかという懐疑論は多いが、それは本質を外した議論だと思う。
こうしたツールの本当の価値は反復的なセキュリティ業務の自動化にある。
入力検証の欠落や脆弱なコンポーネントの使用といった単純な問題は、わざわざ高度な人材が見る必要はない。
こうしたツールがセキュリティチームの雑務を減らす助っ人になってほしい。
人間-エージェント協業構造が今後のセキュリティチーム運営の形になると思う。
私はClaudeのトークンを大量に燃やしながらAIボット防御システムを作っていたのだが、Anthropicがそれに気づいたのかと思った。