- Claude Opus 4.6 は Mozilla との協業を通じて Firefox で 22件の脆弱性 を発見し、このうち 14件 が 高リスク に分類された
- AI モデルが複雑なソフトウェアの ゼロデイ脆弱性 を迅速に検出できることを実証し、修正は Firefox 148.0 に反映された
- Claude は JavaScript エンジン を含むコード領域で数千のファイルを分析し、112件のレポート を提出、Mozilla はこれを基に修正を進めた
- AI は脆弱性を 検出する能力には優れる 一方、実際の エクスプロイト(攻撃コード) 作成能力は限定的であることが確認された
- Anthropic は AI ベースのセキュリティ研究協業モデル を提示し、オープンソース生態系との連携を通じて 防御者中心のセキュリティ強化 を呼びかけた
Mozilla との協業概要
- Claude Opus 4.6 は 2週間の分析を通じて 22件の Firefox 脆弱性 を発見し、Mozilla はこのうち 14件を高リスク と分類
- これは 2025年に Firefox で修正された高リスク脆弱性のおよそ 20% に相当
- 修正は Firefox 148.0 に含まれ、数億人のユーザーへ配布された
- Mozilla は Anthropic の報告を検証しつつ、バグレポートの基準とプロセス を共有し、協調的な検証体制を構築
- この協業は AI ベースのセキュリティ研究者とメンテナーの協業モデル の事例として示された
AI モデルを活用した脆弱性検出プロセス
- Anthropic は CyberGym ベンチマークを超える現実的なテストのために Firefox CVE データセット を構築
- Firefox は複雑で高い安全性を持つオープンソースプロジェクトであり、AI の検出能力を検証する対象として適している
- Claude は過去の CVE を再現した後、最新バージョンの新たな脆弱性 の検出に挑戦
- 最初の20分で Use After Free メモリ脆弱性 を発見し、独立検証の後に Mozilla へ報告
- その後 Claude は 約6,000件の C++ ファイル を分析し、112件の固有レポート を提出
- 問題の大半は Firefox 148 で修正され、一部は今後のバージョンで解決予定
脆弱性エクスプロイト実験
- Claude の セキュリティ能力の上限 を評価するため、発見した脆弱性を実際の 攻撃コードへ変換 できるかを検証
- 数百回のテストと約 4,000ドルの API コスト を投入
- 結果として 実際にエクスプロイトに成功したのは2件のみ で、検出能力に比べて攻撃生成能力は低かった
- 成功したエクスプロイトは テスト環境でのみ動作 し、実際のブラウザの サンドボックス保護機能 が取り除かれた状態だった
- Firefox の多層防御体制はこのような攻撃を緩和できる
- Anthropic はこの実験を通じて AI が攻撃ツールを自動生成する可能性 に警鐘を鳴らした
AI ベースのセキュリティ研究におけるベストプラクティス
- Anthropic は patching agent 研究を通じて、LLM がバグ修正と検証を行える方法を開発
- Task verifier という補助ツールを使って AI の結果をリアルタイムに検証
- 脆弱性の除去有無とプログラム機能の維持有無を自動テスト
- Mozilla が信頼したレポートの中核要素は次の3つ
- 最小再現テストケース
- 詳細な Proof-of-Concept
- 候補となる パッチコード
- 研究者には、LLM ベースの脆弱性報告を行う際に 検証可能性と再現性の証拠 を併せて提出することを推奨
今後の見通しとセキュリティ強化の必要性
- Claude Opus 4.6 は Firefox のほかにも Linux カーネルなど主要プロジェクト で脆弱性を発見
- 現時点では AI の 検出・修正能力 が エクスプロイト生成能力 を上回っており、防御側に有利な状況
- しかしモデルの進化速度を考えると、攻撃能力の差が急速に縮まる可能性 がある
- Anthropic は Claude Code Security を通じて、脆弱性検出とパッチ適用機能を研究者とメンテナーに提供中
- 開発者に対し セキュリティ強化のゴールデンタイム を活用するよう呼びかけ、
- 脆弱性探索の協業
- バグレポート分類ツールの開発
- 自動パッチ提案機能の拡張 を計画している
2件のコメント
Mozilla Foundation Security Advisory 2026-13
これはかなりすごいですね。
厳格なテストケースがどれほど重要かを、改めて思い出させてくれる事例のようです。
Hacker Newsの意見
オープンソースプロジェクトのセキュリティ維持を担当しているなら、Claude Codeにセキュリティ監査を依頼してみることを勧める
Firefoxのような大規模プロジェクトには難しいかもしれないが、たいていのプロジェクトではトークン費用は約3ドル程度だという
攻撃者はすでにこうした監査を行っている可能性が高く、自分でやらないのはもはや責任ある姿勢とは言えない
Zulipの中核コードベースを監査した際には、モデルに各結果を自己レビューさせたところ、この過程でほとんどの誤検知(false positive) が取り除かれた
その後、残った問題についてはコードコメントを追加してセキュリティモデルの意図を明確にしたところ、再監査ではほぼ消えた
「1週間かかる仕事を数秒でやってくれ」という依頼は現実的ではない
結果はもっともらしく見えても、実際とは違うかもしれない
AIをインターンのように扱えば失望しない — 巨大なプログラム全体のセキュリティ監査をインターンに任せるだろうか?
あるケースでは非常によく機能するが、別のケースではまったく役に立たない
違いは結局、コンテキストエンジニアリングとテストハーネスの品質にかかっているように見える
今回の事例も興味深かったが、もっと具体的な説明がほしい
自分も最近プロジェクトをオープンソースとして公開したが、RedditユーザーがClaudeで全体のセキュリティ監査を回して15件の脆弱性を見つけてくれた
FTSインジェクション、LIKEワイルドカードインジェクション、API認証の欠落、プライバシー保護の欠落など、自分が見落としていた点が多かった
驚いたのは結果が非常に体系的だったことだ — 深刻度の分類、ファイルパスと行番号の明示、文書と実際のコードの不一致の指摘まで含まれていた
特に「仕様と現実の差」の分析が最も有用だった
LLMセキュリティ監査の本当の価値は新しいゼロデイを見つけることではなく、人が面倒で流しがちな反復的かつ細かな点検を代行してくれることにある
Firefoxのようなブラウザ脆弱性問題の複雑さを理解している人は多くない
単純なUAFをwasmシェルコードに昇格させる作業だけでも数日かかる
AIサイバー能力競争はまだ静かだが、今年中には変わりそうだ
自分もAnthropicのようにClaudeにVMとバリファイアを与えてエクスプロイト生成を依頼してみたが、kctf-eval環境ではかなりうまく動いた
ただし、モデルが実際に何を「理解」しているのか、それとも単に報酬シグナルに合わせて真似しているだけなのかは依然として不明だ
Mozillaがセキュリティアドバイザリを更新したのが興味深い
1回のリリースで22件の脆弱性を見つけた主体が誰なのか気になっていたが、ようやく明らかになった
単にファイルを落とす程度なら大きな脅威ではないが、セッションデータの窃取のようなものならはるかに興味深い
バグの具体的な内容に触れられていないのが不思議だ
単なるエッジケースなのか、実際に意味のある問題なのか知りたい
LLMはよくある失敗パターンを見つけるのは得意だが、それが常に重要とは限らない
自分はセキュリティ専門家ではないが、単に「LLMだから大したことはない」と片づける話ではないように思う
AIエージェントを使ってみた結果は複雑だった
テストカバレッジの拡張、ファズテストの設定、静的解析ツールのセットアップなどには役立った
しかし、実際にはセキュリティ境界が存在しないのに「非常に安全だ」と断定することがあった
局所的なバグの検出は得意だが、複数の機能が相互作用して生じる複合的な脆弱性はほとんど見つけられない
結局、モデルの安全性に関する主張は常に検証が必要だ
今回の方式の価値は検証可能なテストケースを提供することにある
単なる分析レポートよりずっと効率的だ
以前は「局所的なバグしかうまく見つけられない」という指摘は正しかったが、エージェンティックSDKのおかげで状況が変わった
すでに高いカバレッジがあるなら、残りの部分は本質的に難しい領域だ
特にビジネスロジック脆弱性まで見つけることがある
局所的なバグは目につきやすいが、不完全なセキュリティ境界は最初は十分に見えがちなものだ
AnthropicがFirefoxを選んだ理由は明確だ
広く配布されているオープンソースであり、セキュリティ検証が活発なプロジェクトだからだ
ChromiumはGoogleのGeminiを使い、Safariは閉鎖的な開発文化のため協業が難しい
Anthropicの記事によれば、Claudeが書いたエクスプロイトはテスト環境でのみ動作した
実際のブラウザのサンドボックス機能が取り除かれた状態だったからだ
したがって、Firefoxの多層防御(defense in depth) はこうした攻撃を緩和できたはずだ
Chromeも似た方針を取っている
関連文書はSecurity Severity Ratingsで確認できる
サンドボックス脱出も起こりうるため、すべてのバグは修正対象だ
攻撃者はこうした部分的なゼロデイを蓄積し、組み合わせて使うことができる
今回の修正はそうしたリスクを減らしたという点で、明らかなセキュリティ改善の成果だ
自分もAIエージェントを一晩中回してテストを書かせているが、Claudeに形式検証(formal verification) を試させたことがある
Anthropicも似たアプローチを取ったようだ
今後はプロパティテストとファズテストを自動化するプロンプトを追加する予定だ
自分が扱う問題にはそこまでの重さは不要だと思っているが、もしかすると判断が間違っているのかもしれない
いずれGoogleのOSS-Fuzzのように、オープンソースの中核プロジェクト向け自動セキュリティ監査システムが生まれる気がする
AnthropicはすでにOSSメンテナにClaudeへのアクセスを無料で提供している
LLMのせいでバグバウンティプログラムが虚偽レポートであふれる問題も起きたが、最新モデルは今や実際の脆弱性を見分けられる水準に達している
無料または低価格モデルで評価すれば、品質が低く感じられるのは当然だ
その代わり、高性能LLMを活用したセキュリティ監査プログラムを運営すれば品質を保証できる
バグバウンティを存続させるには、参加費の徴収やLLMベースの検証を導入する方法もありそうだ
関連リンク
たとえばVMを起動して、エージェントが再現テストを行うような形だ