2 ポイント 投稿者 GN⁺ 18 일 전 | 1件のコメント | WhatsAppで共有
  • AnthropicのClaude Mythosが大規模なゼロデイ脆弱性を自動検出した後、小型オープンモデルでも同じ脆弱性検出に成功
  • 3.6B〜5.1Bパラメータ級モデルがFreeBSD・OpenBSDのバグを再現し、一部はMythosとは異なる創造的なエクスプロイト経路を提示
  • 実験結果ではモデルサイズと性能は非線形であり、特定の課題では小型モデルが大型モデルより高精度
  • AIのセキュリティ能力は滑らかに拡張せず「ギザギザ」であり、真の競争力はモデルではなくシステム設計と検証パイプラインにある
  • したがってセキュリティの堀はモデルではなくシステムであり、専門知識を組み込んだオーケストレーション構造がAIセキュリティの核心

堀はシステムであり、モデルではない

  • 2026年4月7日、AnthropicはClaude Mythos PreviewProject Glasswingを公開し、Mythosモデルを活用して主要ソフトウェアのセキュリティ脆弱性を自動検出・修正するコンソーシアムを組成
    • 1億ドル規模の利用クレジット400万ドルのオープンソースセキュリティ団体への寄付を約束
    • Mythosは数千件のゼロデイ脆弱性を発見し、OpenBSDの27年前のバグFFmpegの16年前のバグFreeBSDのリモートコード実行脆弱性などを自律的に検出し、エクスプロイトを生成
  • AISLEは同じ脆弱性を小型・低コスト・オープンウェイトモデルで再現
    • 8モデル中8モデルがFreeBSDのエクスプロイトを検出
    • 3.6Bパラメータモデル(1トークンあたり$0.11)でも検出に成功
    • 5.1BモデルはOpenBSDバグの中核チェーンを復元
    • 一部の課題では小型オープンモデルが大型モデルより優秀
  • 結果としてAIのセキュリティ能力は非線形でギザギザ(jagged)
    • 特定モデルがすべての課題で優れているわけではない
    • セキュリティ競争力の核心はモデルではなくシステムであり、専門知識を組み込んだオーケストレーション構造が中心

AIセキュリティの現在地

  • AISLEは2025年半ばからAIベースの脆弱性検出・修正システムを実際のターゲットに適用
    • OpenSSLで15件のCVE、curlで5件、合計180件以上の外部検証済みCVEを発見
    • OpenSSLのCTOは「レポート品質と協業プロセスが優れている」と評価
  • さまざまなモデルを使用したが、Anthropicのモデルが常に優れているわけではない
    • 課題ごとに最適モデルが異なるため、モデル非依存アプローチを採用

AIセキュリティパイプラインの分解

  • 実際のAIセキュリティは単一モデルではなく多段階パイプラインで構成
    • 広範囲スキャン脆弱性検出検証と分類パッチ生成エクスプロイト構成など、段階ごとにスケーリング特性が異なる
  • Anthropicは第1の入力(モデル知能)を最大化する一方、AISLEはトークン単価・速度・セキュリティ専門性など多様な要素を同等に重視

結論:堀はシステム

  • Mythosの技術ポストで言及されたコンテナ実行、ファイルスキャン、ASan検証、優先順位評価などの構造はAISLEシステムと類似
  • 価値の中心はモデルではなくターゲティング・検証・信頼構築プロセス
  • 小型モデルを大量に並列配置してコード全体を広範囲に探索する方式が、経済性と検出効率を同時に確保
  • Mythosはカテゴリの有効性を証明したが、運用規模と信頼性の確保は依然として課題

実験結果:ギザギザなセキュリティ能力

  • Mythos発表の代表的脆弱性を対象に小型・低コストモデル実験を実施
    • FreeBSD NFSバグ、OpenBSD SACKバグ、OWASP誤検知テスト

      • 結果としてモデルサイズ・世代・価格と性能は非線形
      • FreeBSD検出は全モデルが成功、OpenBSDは一部のみ成功、OWASPは小型モデルが大型モデルより正確
      • FreeBSD検出:8モデルすべてがバッファオーバーフローを検出
      • 3.6Bモデルも正確に計算し、RCE可能性評価を実施
      • DeepSeek R1は実際のスタック構造と一致する計算を実施
      • エクスプロイト論理でも全モデルがROPチェーン戦略を提示
      • 一部モデルはMythosと異なる創造的解決策を提示(例:カーネルモードではなくユーザーモードでroot昇格
      • OpenBSD SACKバグ:5.1Bモデルが全チェーンを復元し、正しいパッチを提案
      • Qwen3 32BはFreeBSDでは完璧だったが、ここでは「安全」と誤判定
      • モデル別性能順位が課題ごとに完全に入れ替わる
  • OWASP誤検知テスト:単純なJavaコードでは小型モデルが大型モデルより正確

    • GPT-OSS-20b、DeepSeek R1、OpenAI o3は「現時点では安全だが脆弱化の可能性あり」と正確に判断
    • AnthropicおよびGPT-4.x系の多くは誤ったSQLインジェクション検出

パッチ認識テスト(2026年4月9日更新)

  • FreeBSDのパッチ適用版コードについて、バグ検出と修正認識能力を比較
    • すべてのモデルが未修正版のバグは検出したが、パッチ後コードでは誤検知が多数発生
    • GPT-OSS-120bだけが両方向とも正確
    • 大半のモデルはoa_lengthの符号解釈ミスにより誤った脆弱性主張
  • これは**感度(検出力)は高い一方で特異度(正確性)**は低いことを示し、
    モデル外部の検証・トリアージシステムが必須であることを強調

エクスプロイト構成の境界

  • Mythosの多段階ブラウザサンドボックス脱出、カーネルROPチェーンなどは非常に高度な事例
  • オープンモデルはエクスプロイト可能性・手法・回避戦略を論理的に説明するが、
    制約された環境での創造的な伝達メカニズムはまだ不足
  • しかし防御的ワークフローでは、完全なエクスプロイトより検出・パッチの信頼性のほうが重要

マクロな視点

  • Mythos発表はAIセキュリティの現実性と産業的重要性を実証
    • オープンソースセキュリティへの資金と関心が拡大
  • しかし「この能力は特定のクローズドモデルにしか存在しない」という主張は誇張
    • 実際には検出・分析段階はすでに広くアクセス可能
    • セキュリティ専門性・システム設計・信頼構築が真のボトルネック
  • 今必要なのはモデルではなくシステム構築

    • スキャフォールド、パイプライン、協業体制、開発ワークフロー統合
    • モデルはすでに十分に整っている

限界と注意点

  • テスト範囲の制限:モデルに脆弱関数とヒントを直接提供しており、完全自律探索ではない
  • ツールアクセスなし:コード実行・ループ・サンドボックス環境は未使用
  • モデル更新の反映:一部の最新Anthropicモデルはその後改善
  • 主張範囲の明確化:Mythosの能力を否定するものではなく、
    検出能力の独占性は誇張されていたことを指摘

付録要約

  • FreeBSD検出の引用

    • Kimi K2: “oa_lengthは検証なしにコピーされ、オーバーフローの可能性がある”
    • Gemma 4: “128バイトのスタックバッファを超過する可能性”
  • 課題別性能比較表

    • FreeBSD検出は全モデル成功、OpenBSDは一部のみ成功、OWASPは小型モデル優勢
  • パッチコードテスト

    • 大半のモデルがoa_lengthの符号ミスで誤検知
    • GPT-OSS-120bだけが完全に正確
    • 結論:
    • AIセキュリティの核心的競争力はモデルのサイズや独占性ではなく、
    • 専門知識を組み込んだシステム設計と信頼できる運用構造にある。
    • 小型モデルでも十分に強力であり、それを活用した大規模自動化防御体制の構築はすでに可能な段階にある。

1件のコメント

 
GN⁺ 18 일 전
Hacker Newsのコメント
  • AnthropicのMythos Preview記事によると、OpenBSDで最も致命的な脆弱性を発見したとのこと
    1000回の実行で総コストは2万ドル未満、そのうち1回は50ドル未満でバグを見つけたという
    ただし、これは事後的にしか意味のない数字であり、実際にはどの実行が成功するかは分からない点が強調されている
    Mythosが大陸全体を金鉱のように掘り返したという比喩を用い、FreeBSD全体のコードベースで同じ実験をすればノイズが多すぎるだろうと予想している

    • Mythosのスキャフォールディングは、実質的にはbashループで全ファイルを巡回し、モデルに脆弱性を探させる方式だった
      Anthropicがfalse positive率を公開しているのか気になる
      Xitterで別の公開モデルで実験した人たちが、Mythosが見つけた一部しか再現できなかったという話を見た
      Mythosは既存モデルに比べて漸進的だが大きな改善を示した一方で、複雑さも増したと思う
      「公開するには強力すぎる」といったマーケティングは、実際には「コードベース全体を回すと2万ドルかかる」という現実を飾っているように見える
      Nicholas Carliniの発表でもOpusが使われており、セキュリティはずっと以前からAnthropicが注力していた領域だ
    • Mythosもでたらめな脆弱性を大量に生成していたが、一部は実際にテストで検証された
      重要なのは、小型モデルでもこうした検証段階を実行できるのか、そしてより安価にできるのかという点だ
    • 逆に、別の研究は極端すぎるアプローチだと見る向きもある
      脆弱な関数だけを切り出してモデルに渡して評価しており、これは「金が隠された部屋を直接教えた」のと同じだ
      実際には、大陸全体からその部屋を見つける方が難しい部分だ
    • OpenBSDのDoS脆弱性を1つ見つけるのに2万ドルを使ったのは非効率に感じる
      Mythosがトロフィーのように扱われている雰囲気だが、むしろOpenBSD財団に寄付した方がよいと思う
    • 小型モデルでも同じ脆弱性を見つけられるなら、なぜその会社はそれを以前から見つけられなかったのか疑問だ
  • 小さなオープンモデルがMythosのFreeBSD脆弱性を8件中8件すべて検出したという研究があった
    ただし、関連コードだけを切り出してテストしていたため、実際のユースケースとは異なると思う
    コードベース全体を投げてスキャンできることこそ本当の価値だ

    • 研究チーム自身も限界を認めていた
      モデルに脆弱な関数とヒントを直接与えていたため、これは完全自律探索の上限にすぎない
      ただし、よく設計されたスキャフォールドはこうした文脈を自動で作り出せるので、**核心はシステム(モート)**であってモデルではない
    • Anthropicの技術ブログによると、コンテナを立ち上げ、モデルがファイルをスキャンして仮説を立て、ASanで検証する構造だという
      つまり、**フレームワーク(ハーネス)**が仕事の大半を担っており、モデルは交換可能だという主張だ
    • 小型モデルでも、すべてのファイルや関数単位で反復的にプロンプトを投げる自動ハーネスは作れる
      一貫して脆弱性として指摘された部分だけを大型モデルで再検証すればよい
      結局重要なのはモデルではなくハーネスだ
    • 結局のところ違いはハーネスだけだ。私でもコードを関数単位に分割して分析エージェントに入れるハーネスを作れる
  • Heartbleedの例のように、脆弱なコードだけを見せれば誰でもバグを見つけられる
    しかし、大規模コードの中からその部分を見つけ出すのが本当に難しい
    Aisleがこういう記事を書いたのは意外だった

    • 宣伝記事ではあるが、HNの上位に上がったのは、人々の「新しいモデルも大したことないな」という心理を刺激したからだと思う
    • 大きなプロジェクトでは、少し休んで戻ってきたときに、自分で書いたコードがひどく見えることがよくある
      文脈維持の難しさがバグの根本原因の1つだ
    • 人間は反復的で細かい作業に弱い
      一方、機械は退屈せずにコードを見続けられる
      「十分な数の目があれば、すべてのバグは浅い」という言葉は現実とは違う
    • ならば、その「近くで見る」過程を自動化すればいい
      コードベースを巡回しながらLLMに「このコードに脆弱性があるなら探せ」と繰り返しプロンプトするツールを作ればよい
      つまり、**ツール(ハーネス)**こそがLLMを賢くする核心だ
    • これは問題解決と検証を混同しているのと同じだ
      「素因数分解のやり方を教えてもらえればPKIを破るのは簡単だ」といった比喩である
  • この記事の方法論は完全に誤った比較だと思う
    脆弱な関数とヒントを直接与えるのは、まったく別の課題だ
    実際には、コード断片を分けて小型モデルに投げても大型モデル並みの結果は得にくいと思う
    私は単純なシェルスクリプトのパイプラインでRedisのバグを多く見つけた
    弱いモデルでは無理だった。自分で実験すれば差が分かる
    また、小型モデルが80%見つけられたとしても、残り20%を見つけるにはより強いモデルが必要だ

    • Anthropicは、発見した脆弱性のうち公開したのは1%未満だとも述べていた
      オープンモデルに旧バージョンのLinux環境を与えて、どれだけ見つけられるか実験するとよさそうだ
    • ただし、別の人はこのアプローチは妥当だと見ている
      小型モデルはfalse positiveをうまく除外し、適切なハーネスを使えば大型モデルに近い結果を出せる
      小型モデルは高速で安価なので、熟練した利用者が扱えばはるかに効率的だ
      今後はこうした軽量モデル+ハーネスの組み合わせが主流になると思う
    • 「Thanks Dario, very cool!」と皮肉っぽく反応した人もいた
  • 多くのコメントが「コードを分離したから無効だ」と言うが、Anthropicも同じようにファイル単位でモデルを回していた
    Mythosのハーネスは各ファイルに重要度スコアを付け、そのファイルに集中するClaude Codeインスタンスを生成する構造だった
    したがって、コード分離そのものが結果を無効化するわけではない

  • Nicholas Carliniの発表動画でも同じ手法が紹介されている
    LLMに一度に1ファイルずつ集中的にレビューさせると効果が高い
    Mythosの「革新」は、実際にはこの単純なファイル単位プロンプト自動化だった
    この方式のためにコストが2万ドルまで膨らんだ可能性が高い
    私もOpus 4.6とGPT 5.4で同じ方法を試したが、はるかに徹底してレビューした
    つまり、1セッションを1ファイルに集中させると、モデルははるかに深く分析する

    • ただし、こうするとファイル間相互作用から生じる脆弱性は見逃すかもしれない
  • 「小型モデルが同じ分析を復元した」という表現は定量化されておらず、信頼しにくい
    脆弱性検証はPoCで明確に測定できるため、そのような証拠が必要だ
    また、「関連コードだけを事前提供」したのは公正な比較ではない

  • false positive率を公開しなければ分析は無意味だ
    すべての行にバグがあると言えば検出率100%だが役に立たない
    AnthropicやOpenAIもこうした数値を公開していないので信用しにくい

    • ただし、検証可能なオラクル(oracle) があるならfalse positiveは無視できるという反論もあった
    • 実際、小型モデルはfalse positiveテストで正解し、Opusは間違えた
      ただし、Mythosレベルのエクスプロイト検証までは到達していなかった
      Deepseek R1の結果はかなり説得力があったが、実際に動作したかは不明だ
    • 少なくともAnthropicが得たカバレッジと同等には到達してこそ意味がある
  • 核心は「関連コードを切り出した」点にある
    複雑なゼロデイは複数ファイルの相互作用から生じるため、このアプローチには限界がある

    • ただし、ある人はMythosも結局同じようにファイル単位分析をしていたと主張する
    • Mythosが実際にファイル間の脆弱性を見つけたのかは不明だ
  • Mythosはコードベース全体を評価したが、今回の研究は脆弱なコードだけを切り出してテストしていた
    これは「ジャングルでボールを見つけた犬」と「ボールのある区域だけ教えられた犬」の違いのようなものだ

    • しかも、そのボールに匂いを付けて犬に嗅がせたうえで、狭い区域に放したようなものだという比喩もあった
    • Mythosはコード全体を一度に投入できないので、複数のサブエージェントが分担して処理した可能性が高い
      結局重要なのはモデルではなく**ハーネス(ツール体系)**だ