4 ポイント 投稿者 GN⁺ 2026-02-21 | 1件のコメント | WhatsAppで共有
  • Claude Code Security は、コードベースの脆弱性を検出し、人間によるレビュー向けのパッチ提案を提供するAIベースのセキュリティ機能
  • 既存の 静的解析ツールでは見逃される複雑な脆弱性 を、人間の研究者のようにコードの相互作用とデータフローを追跡して検出
  • すべての結果は 多段階の検証と深刻度評価 を経てダッシュボードに表示され、開発者の承認なしに自動修正されることはない
  • Anthropic はこの機能を、Enterprise・Team の顧客およびオープンソースメンテナーに対し、限定的な研究プレビューとして公開
  • AI が攻撃者よりも速く脆弱性を見つけられる時代に備え、業界全体のセキュリティ水準向上 を目指す

Claude Code Security の概要

  • Claude Code Security は、Claude Code のWeb版 に組み込まれた新機能で、コードベースをスキャンして セキュリティ脆弱性の検出とパッチ提案 を行う
    • 研究プレビューとして提供され、人間によるレビューを前提とする
  • 既存のセキュリティチームが抱える 人手不足と脆弱性過多の問題 を解決するためのツールとして設計
  • 既存の解析ツールは既知パターン中心だが、Claude は 新規でコンテキスト依存の脆弱性 まで検出可能

仕組み

  • 従来の 静的解析 はルールベースで既知の脆弱性パターンを検出するが、ビジネスロジックの誤りやアクセス制御の欠陥 などは見逃しやすい
  • Claude Code Security は、人間の研究者のようにコードの意味を理解して推論 し、複雑な脆弱性を捉える
    • コンポーネント間の相互作用とデータフローを追跡
  • 検出結果は 多段階の検証プロセス を経て偽陽性を最小化
    • Claude が自ら結果を再確認し、深刻度レベル を付与
  • 検証済みの結果は ダッシュボード に表示され、チームがレビューと承認を行える
    • 各項目には 信頼度スコア が含まれ、人間の承認なしに修正が適用されることはない

Claude のサイバーセキュリティ研究基盤

  • Claude Code Security は、1年以上にわたって進められた Claude のセキュリティ研究 を基盤に開発
  • Anthropic の Frontier Red Team は Claude を Capture-the-Flag 大会 に参加させ、Pacific Northwest National Laboratory と協力して AIベースのインフラ防御実験 を実施
  • 最新モデル Claude Opus 4.6 を活用し、500件以上のオープンソースコードの脆弱性 を発見
    • 数十年にわたり専門家のレビューを経ても残っていたバグを含む
    • 現在、メンテナーとともに 責任ある開示プロセス を進行中
  • Anthropic は社内コードのセキュリティにも Claude を活用しており、同じ防御能力を外部にも提供 するためにこの機能を開発

今後の展望

  • AI が 世界の大半のコードベースをスキャン する時点は近い
    • AIモデルは長期間隠れていたバグを効果的に検出できる
  • 攻撃者も AI を使って脆弱性を素早く見つけられるが、防御側が先回りしてパッチを適用 すればリスクを減らせる
  • Claude Code Security は、より安全なコードベースと業界全体のセキュリティ基準向上 に向けた一歩として提示される

参加とアクセス

  • Enterprise および Team の顧客 に研究プレビューとして公開
    • 参加者は Anthropic チームと直接協力し、ツール改善に貢献できる
  • オープンソースメンテナー は無料で迅速なアクセス申請が可能
  • 詳細は claude.com/solutions/claude-code-security で確認可能

1件のコメント

 
GN⁺ 2026-02-21
Hacker Newsの意見
  • Anthropicが脆弱性検出機能を出したのは驚くことではない。
    すでにOpenAIはAardvarkを、GoogleはBigSleepを発表しているからだ。
    重要なのは規模と精度だと思う。AnthropicはOpus 4.6で500件の「高深刻度」脆弱性を見つけたと言っているが、それが本当に深刻なのかは疑問がある。BigSleepは20件程度で、Aardvarkは数値を公開していない。
    私がSemgrepを創業したとき、DARPA AIxCC大会でLLMベースの脆弱性検出参加者にコスト/脆弱性単価混同行列の公開を求めていたのが印象的だった。こうしたデータがなければ、どのモデルが本当に先行しているのか判断しにくい。
    LLMセキュリティエージェントにSemgrepやCodeQLのようなツールへのアクセス権を与えると、偽陽性率は大きく下がる。将来は人間がアプリセキュリティマネージャーとして、このような仮想セキュリティエンジニアエージェントを管理する形になる気がする。

    • SemgrepのようなSASTツールの最大の問題は偽陽性だ。開発者は実際の問題につながる0.1%の結果だけを求めているのに、パターンマッチング方式はノイズが多すぎる。
      私もパターンマッチング + LLMの組み合わせを使ってみたが、かなり効果があった。ただしSASTにしか適用できず、SCAやコンテナイメージのようにセキュリティチームのノイズの90%を占める領域は、依然として解決が難しい。
    • こうした機能は小規模リポジトリを一度スキャンするには悪くないが、コード変更が頻繁な現実では再スキャンのコストが高すぎる。PR作成やコンフリクト解消、レビュー担当者探しなど、実際のワークフローが抜けている。
      研究用としては面白いが、実務ツールとしては限界がある。
    • 私も似たようなアプローチを取っている。Webサイトのセキュリティ・性能・SEOに焦点を当てた社内ツールをエージェントベースに拡張したところ、結果は驚くほど良かった。
      SquirrelScanというサービスで、人が書いたルールを基にエージェントが設定を動的に調整し、偽陽性の除去と検証を行う。
  • 「Anakin: AI脆弱性スキャナーで世界を救うんだ」という冗談があった。
    Padmeが「じゃあその脆弱性を修正するためにスキャンするのよね?」と聞くようなやり取りで、AIスキャナーの目的を風刺したユーモアだった。

    • この機能がチーム・エンタープライズ向けのアクセス申請に限定されているのは、そのためだと思う。
      オープンソースの代替としてはDeepAuditがある。
    • 悪意あるユーザーがオープンソースプロジェクトやnpmパッケージを大量にスキャンしてゼロデイを見つけることが懸念される。
      Anthropicには異常な利用パターンを検知する早期警戒システムを備えてほしい。
    • 皮肉なことに、研究機関が最も強力なハッキングツールキットを出しているのに、サイバーセキュリティ防御銘柄の株価はむしろ下がっている。市場の論理が理解できない。
    • 冗談の意味がよく分からないという反応もあった。
  • セキュリティ監査会社を運営する立場からすると、大手LLM企業が監査市場にまで参入してくるのを実感している。
    zkao.ioのような私たちのAIベースのサービスも競争圧力を受けている。
    将来は2つのシナリオがありそうだ。
    1つは人間の監査人と開発者が消える世界、もう1つは人間の専門性とセンスが必要なニッチ市場へ進化する世界だ。
    真面目な企業は今後も人との協業を望むだろうし、SaaS+人間支援の形で残る可能性が高い。
    一方で「vibe coder」たちはClaude Code Securityのようなツールを使うだろうし、その品質も「vibe coding」並みになるだろう — 十分実用的だが完璧ではない。
    現実的にはこちらのほうが可能性が高いと思う。こうしたツールは、私たちのような小規模な専門監査チームをさらに強くしてくれる。

    • スペルの指摘: "seize"ではなく"cease"が正しい。
    • 開発者は消えない。単に新しい形の開発者へ進化するだけだ。しかし監査人の未来は暗い。
  • Anthropicの説明の中で、「Claude Code Securityは人間の研究者のようにコードを読み、推論する」という部分が興味深い。
    私たちのチームも静的解析とAIを組み合わせてきたので、このアプローチはセキュリティ自動化の進化方向だと思う。

    • だが、その文は事実ではない。LLMは結局のところパターンマッチングマシンだ。人間の研究者は単なるパターンマッチング以上のことをする。
      「人間のように推論する」という主張は、誇張されたマーケティング文句に見える。
  • Claude Code Opus 4.5はOpenSSF CVE Benchmarkで約71%の精度を記録した。
    私たちはSASTを一次フィルタとして使い、その後でデータフローグラフ・依存関係グラフなどの静的解析成果物をLLMに活用させている。
    この方式は、単に「セキュリティ研究者のように振る舞え」と指示するよりはるかに効果的だった。新機能が公開されたらベンチマークを更新する予定だ。

  • 競合製品には失望した。多くは既存の静的解析ツールが見つける問題を再検出しているだけで、AIスキャンでは偽陽性が多かった。
    今回はもう少し良い結果を期待している。

  • AIがシニアセキュリティエンジニア並みの創造的思考をできるのかという懐疑論は多いが、それは本質を外した議論だと思う。
    こうしたツールの本当の価値は反復的なセキュリティ業務の自動化にある。
    入力検証の欠落や脆弱なコンポーネントの使用といった単純な問題は、わざわざ高度な人材が見る必要はない。
    こうしたツールがセキュリティチームの雑務を減らす助っ人になってほしい。

    • LLM、特にClaudeは実際にセキュリティエンジニア級の能力を見せる。私たちのスタートアップは攻撃的ペネトレーションテスト用のエージェントを作っているが、数時間走らせるだけで人が見逃すような奇妙な脆弱性を見つける。
    • むしろ脆弱性研究者の間では非公開の楽観論が多い。公には懐疑的な人より、静かに実験しながら可能性を見ている専門家のほうがずっと多い。
    • Fortune 500企業のペネトレーションテスターとして、この評価に同意する。内部で見つかる問題の大半は「ベストプラクティス」レベルなので、エージェントがそうした部分を自動処理してくれれば、はるかに効率的だ。
      人間-エージェント協業構造が今後のセキュリティチーム運営の形になると思う。
    • 私たちもClaude Opus 4.6を使ってみたが、偽陽性率が50%未満で非常に印象的だった。
  • 私はClaudeのトークンを大量に燃やしながらAIボット防御システムを作っていたのだが、Anthropicがそれに気づいたのかと思った。

    • 私たちも何年も前から独自システムを開発している。エンジニアが自作したTirrenoを参考にすると役立つかもしれない。