AIサイバーセキュリティの新たな境界線:Mythos以後の現実
(aisle.com)- AnthropicのClaude Mythosが大規模なゼロデイ脆弱性を自動検出した後、小型オープンモデルでも同じ脆弱性検出に成功
- 3.6B〜5.1Bパラメータ級モデルがFreeBSD・OpenBSDのバグを再現し、一部はMythosとは異なる創造的なエクスプロイト経路を提示
- 実験結果ではモデルサイズと性能は非線形であり、特定の課題では小型モデルが大型モデルより高精度
- AIのセキュリティ能力は滑らかに拡張せず「ギザギザ」であり、真の競争力はモデルではなくシステム設計と検証パイプラインにある
- したがってセキュリティの堀はモデルではなくシステムであり、専門知識を組み込んだオーケストレーション構造がAIセキュリティの核心
堀はシステムであり、モデルではない
- 2026年4月7日、AnthropicはClaude Mythos PreviewとProject Glasswingを公開し、Mythosモデルを活用して主要ソフトウェアのセキュリティ脆弱性を自動検出・修正するコンソーシアムを組成
- 1億ドル規模の利用クレジットと400万ドルのオープンソースセキュリティ団体への寄付を約束
- Mythosは数千件のゼロデイ脆弱性を発見し、OpenBSDの27年前のバグ、FFmpegの16年前のバグ、FreeBSDのリモートコード実行脆弱性などを自律的に検出し、エクスプロイトを生成
- AISLEは同じ脆弱性を小型・低コスト・オープンウェイトモデルで再現
- 8モデル中8モデルがFreeBSDのエクスプロイトを検出
- 3.6Bパラメータモデル(1トークンあたり$0.11)でも検出に成功
- 5.1BモデルはOpenBSDバグの中核チェーンを復元
- 一部の課題では小型オープンモデルが大型モデルより優秀
- 結果としてAIのセキュリティ能力は非線形でギザギザ(jagged)
- 特定モデルがすべての課題で優れているわけではない
- セキュリティ競争力の核心はモデルではなくシステムであり、専門知識を組み込んだオーケストレーション構造が中心
AIセキュリティの現在地
- AISLEは2025年半ばからAIベースの脆弱性検出・修正システムを実際のターゲットに適用
- OpenSSLで15件のCVE、curlで5件、合計180件以上の外部検証済みCVEを発見
- OpenSSLのCTOは「レポート品質と協業プロセスが優れている」と評価
- さまざまなモデルを使用したが、Anthropicのモデルが常に優れているわけではない
- 課題ごとに最適モデルが異なるため、モデル非依存アプローチを採用
AIセキュリティパイプラインの分解
- 実際のAIセキュリティは単一モデルではなく多段階パイプラインで構成
- 広範囲スキャン、脆弱性検出、検証と分類、パッチ生成、エクスプロイト構成など、段階ごとにスケーリング特性が異なる
- Anthropicは第1の入力(モデル知能)を最大化する一方、AISLEはトークン単価・速度・セキュリティ専門性など多様な要素を同等に重視
結論:堀はシステム
- Mythosの技術ポストで言及されたコンテナ実行、ファイルスキャン、ASan検証、優先順位評価などの構造はAISLEシステムと類似
- 価値の中心はモデルではなくターゲティング・検証・信頼構築プロセス
- 小型モデルを大量に並列配置してコード全体を広範囲に探索する方式が、経済性と検出効率を同時に確保
- Mythosはカテゴリの有効性を証明したが、運用規模と信頼性の確保は依然として課題
実験結果:ギザギザなセキュリティ能力
- Mythos発表の代表的脆弱性を対象に小型・低コストモデル実験を実施
-
FreeBSD NFSバグ、OpenBSD SACKバグ、OWASP誤検知テスト
- 結果としてモデルサイズ・世代・価格と性能は非線形
- FreeBSD検出は全モデルが成功、OpenBSDは一部のみ成功、OWASPは小型モデルが大型モデルより正確
- FreeBSD検出:8モデルすべてがバッファオーバーフローを検出
- 3.6Bモデルも正確に計算し、RCE可能性評価を実施
- DeepSeek R1は実際のスタック構造と一致する計算を実施
- エクスプロイト論理でも全モデルがROPチェーン戦略を提示
- 一部モデルはMythosと異なる創造的解決策を提示(例:カーネルモードではなくユーザーモードでroot昇格)
- OpenBSD SACKバグ:5.1Bモデルが全チェーンを復元し、正しいパッチを提案
- Qwen3 32BはFreeBSDでは完璧だったが、ここでは「安全」と誤判定
- モデル別性能順位が課題ごとに完全に入れ替わる
-
-
OWASP誤検知テスト:単純なJavaコードでは小型モデルが大型モデルより正確
- GPT-OSS-20b、DeepSeek R1、OpenAI o3は「現時点では安全だが脆弱化の可能性あり」と正確に判断
- AnthropicおよびGPT-4.x系の多くは誤ったSQLインジェクション検出
パッチ認識テスト(2026年4月9日更新)
- FreeBSDのパッチ適用版コードについて、バグ検出と修正認識能力を比較
- すべてのモデルが未修正版のバグは検出したが、パッチ後コードでは誤検知が多数発生
- GPT-OSS-120bだけが両方向とも正確
- 大半のモデルは
oa_lengthの符号解釈ミスにより誤った脆弱性主張
- これは**感度(検出力)は高い一方で特異度(正確性)**は低いことを示し、
モデル外部の検証・トリアージシステムが必須であることを強調
エクスプロイト構成の境界
- Mythosの多段階ブラウザサンドボックス脱出、カーネルROPチェーンなどは非常に高度な事例
- オープンモデルはエクスプロイト可能性・手法・回避戦略を論理的に説明するが、
制約された環境での創造的な伝達メカニズムはまだ不足 - しかし防御的ワークフローでは、完全なエクスプロイトより検出・パッチの信頼性のほうが重要
マクロな視点
- Mythos発表はAIセキュリティの現実性と産業的重要性を実証
- オープンソースセキュリティへの資金と関心が拡大
- しかし「この能力は特定のクローズドモデルにしか存在しない」という主張は誇張
- 実際には検出・分析段階はすでに広くアクセス可能
- セキュリティ専門性・システム設計・信頼構築が真のボトルネック
-
今必要なのはモデルではなくシステム構築
- スキャフォールド、パイプライン、協業体制、開発ワークフロー統合
- モデルはすでに十分に整っている
限界と注意点
- テスト範囲の制限:モデルに脆弱関数とヒントを直接提供しており、完全自律探索ではない
- ツールアクセスなし:コード実行・ループ・サンドボックス環境は未使用
- モデル更新の反映:一部の最新Anthropicモデルはその後改善
- 主張範囲の明確化:Mythosの能力を否定するものではなく、
検出能力の独占性は誇張されていたことを指摘
付録要約
-
FreeBSD検出の引用
- Kimi K2: “
oa_lengthは検証なしにコピーされ、オーバーフローの可能性がある” - Gemma 4: “128バイトのスタックバッファを超過する可能性”
- Kimi K2: “
-
課題別性能比較表
- FreeBSD検出は全モデル成功、OpenBSDは一部のみ成功、OWASPは小型モデル優勢
-
パッチコードテスト
- 大半のモデルが
oa_lengthの符号ミスで誤検知 - GPT-OSS-120bだけが完全に正確
- 結論:
- AIセキュリティの核心的競争力はモデルのサイズや独占性ではなく、
- 専門知識を組み込んだシステム設計と信頼できる運用構造にある。
- 小型モデルでも十分に強力であり、それを活用した大規模自動化防御体制の構築はすでに可能な段階にある。
- 大半のモデルが
1件のコメント
Hacker Newsのコメント
AnthropicのMythos Preview記事によると、OpenBSDで最も致命的な脆弱性を発見したとのこと
1000回の実行で総コストは2万ドル未満、そのうち1回は50ドル未満でバグを見つけたという
ただし、これは事後的にしか意味のない数字であり、実際にはどの実行が成功するかは分からない点が強調されている
Mythosが大陸全体を金鉱のように掘り返したという比喩を用い、FreeBSD全体のコードベースで同じ実験をすればノイズが多すぎるだろうと予想している
Anthropicがfalse positive率を公開しているのか気になる
Xitterで別の公開モデルで実験した人たちが、Mythosが見つけた一部しか再現できなかったという話を見た
Mythosは既存モデルに比べて漸進的だが大きな改善を示した一方で、複雑さも増したと思う
「公開するには強力すぎる」といったマーケティングは、実際には「コードベース全体を回すと2万ドルかかる」という現実を飾っているように見える
Nicholas Carliniの発表でもOpusが使われており、セキュリティはずっと以前からAnthropicが注力していた領域だ
重要なのは、小型モデルでもこうした検証段階を実行できるのか、そしてより安価にできるのかという点だ
脆弱な関数だけを切り出してモデルに渡して評価しており、これは「金が隠された部屋を直接教えた」のと同じだ
実際には、大陸全体からその部屋を見つける方が難しい部分だ
Mythosがトロフィーのように扱われている雰囲気だが、むしろOpenBSD財団に寄付した方がよいと思う
小さなオープンモデルがMythosのFreeBSD脆弱性を8件中8件すべて検出したという研究があった
ただし、関連コードだけを切り出してテストしていたため、実際のユースケースとは異なると思う
コードベース全体を投げてスキャンできることこそ本当の価値だ
モデルに脆弱な関数とヒントを直接与えていたため、これは完全自律探索の上限にすぎない
ただし、よく設計されたスキャフォールドはこうした文脈を自動で作り出せるので、**核心はシステム(モート)**であってモデルではない
つまり、**フレームワーク(ハーネス)**が仕事の大半を担っており、モデルは交換可能だという主張だ
一貫して脆弱性として指摘された部分だけを大型モデルで再検証すればよい
結局重要なのはモデルではなくハーネスだ
Heartbleedの例のように、脆弱なコードだけを見せれば誰でもバグを見つけられる
しかし、大規模コードの中からその部分を見つけ出すのが本当に難しい
Aisleがこういう記事を書いたのは意外だった
文脈維持の難しさがバグの根本原因の1つだ
一方、機械は退屈せずにコードを見続けられる
「十分な数の目があれば、すべてのバグは浅い」という言葉は現実とは違う
コードベースを巡回しながらLLMに「このコードに脆弱性があるなら探せ」と繰り返しプロンプトするツールを作ればよい
つまり、**ツール(ハーネス)**こそがLLMを賢くする核心だ
「素因数分解のやり方を教えてもらえればPKIを破るのは簡単だ」といった比喩である
この記事の方法論は完全に誤った比較だと思う
脆弱な関数とヒントを直接与えるのは、まったく別の課題だ
実際には、コード断片を分けて小型モデルに投げても大型モデル並みの結果は得にくいと思う
私は単純なシェルスクリプトのパイプラインでRedisのバグを多く見つけた
弱いモデルでは無理だった。自分で実験すれば差が分かる
また、小型モデルが80%見つけられたとしても、残り20%を見つけるにはより強いモデルが必要だ
オープンモデルに旧バージョンのLinux環境を与えて、どれだけ見つけられるか実験するとよさそうだ
小型モデルはfalse positiveをうまく除外し、適切なハーネスを使えば大型モデルに近い結果を出せる
小型モデルは高速で安価なので、熟練した利用者が扱えばはるかに効率的だ
今後はこうした軽量モデル+ハーネスの組み合わせが主流になると思う
多くのコメントが「コードを分離したから無効だ」と言うが、Anthropicも同じようにファイル単位でモデルを回していた
Mythosのハーネスは各ファイルに重要度スコアを付け、そのファイルに集中するClaude Codeインスタンスを生成する構造だった
したがって、コード分離そのものが結果を無効化するわけではない
Nicholas Carliniの発表動画でも同じ手法が紹介されている
LLMに一度に1ファイルずつ集中的にレビューさせると効果が高い
Mythosの「革新」は、実際にはこの単純なファイル単位プロンプト自動化だった
この方式のためにコストが2万ドルまで膨らんだ可能性が高い
私もOpus 4.6とGPT 5.4で同じ方法を試したが、はるかに徹底してレビューした
つまり、1セッションを1ファイルに集中させると、モデルははるかに深く分析する
「小型モデルが同じ分析を復元した」という表現は定量化されておらず、信頼しにくい
脆弱性検証はPoCで明確に測定できるため、そのような証拠が必要だ
また、「関連コードだけを事前提供」したのは公正な比較ではない
false positive率を公開しなければ分析は無意味だ
すべての行にバグがあると言えば検出率100%だが役に立たない
AnthropicやOpenAIもこうした数値を公開していないので信用しにくい
ただし、Mythosレベルのエクスプロイト検証までは到達していなかった
Deepseek R1の結果はかなり説得力があったが、実際に動作したかは不明だ
核心は「関連コードを切り出した」点にある
複雑なゼロデイは複数ファイルの相互作用から生じるため、このアプローチには限界がある
Mythosはコードベース全体を評価したが、今回の研究は脆弱なコードだけを切り出してテストしていた
これは「ジャングルでボールを見つけた犬」と「ボールのある区域だけ教えられた犬」の違いのようなものだ
結局重要なのはモデルではなく**ハーネス(ツール体系)**だ