2 ポイント 投稿者 GN⁺ 3 시간 전 | 2件のコメント | WhatsAppで共有
  • AnthropicのMythosはcurlの脆弱性5件を報告したが、実際に残ったのは1件 בלבד
  • curlセキュリティチームのレビューの結果、3件は誤検知、1件は一般的なバグに分類された
  • 確認された脆弱性は深刻度低のCVEで、curl 8.21.0とともに6月末に公開予定
  • レポートには約20件のバグが含まれており、curlチームは同意した項目を修正中
  • Daniel Stenbergは、curlの結果だけではMythosが特に危険なレベルだという証拠は弱いと見ている

Anthropic Mythosのcurlへのアプローチ経路

  • Anthropicは2026年4月、新しいAIモデルMythosがソースコードのセキュリティ欠陥を見つけるのに「危険なほど優れている」と結論づけ、大きな注目を集めた
  • AnthropicはMythosをすぐには公開せず、一部企業にまず限定提供して重要な問題を修正する時間を与える方式を選んだ
  • project Glasswingの一環として、AnthropicはLinux Foundationを通じて「オープンソースプロジェクト」にも最新AIモデルの利用権を提供した
  • Linux Foundationはこの部分をAlpha Omegaに担当させ、curlのリード開発者Daniel Stenbergに提案が伝えられた
  • 利用契約は締結されたが実際のアクセスは遅れ、最終的にはMythosへのアクセス権を持つ別の人物がcurlをスキャン・分析し、そのレポートを渡す形で進められた

すでに進んでいたcurlのAIセキュリティ分析

  • curlはMythosのレポート以前から複数のAIベースのツールで分析を受けており、一般的な静的コード解析器、厳格なコンパイラオプション、長年のファジングも継続して利用してきた
  • 主にAISLEZeropathOpenAI’s Codex SecurityがAIでcurlコードを点検していた
  • これらのツールの分析は、ここ約8〜10か月のあいだにcurlへマージされた200〜300件のバグ修正につながった
  • AIツールが報告した項目の一部は実際の脆弱性として確認され、CVEとして公開されており、その数は「おそらく12件以上」だという
  • GitHub CopilotAugment codeもプルリクエストのレビューに使われ、指摘された問題を直してより良いコードをマージする助けになっている
  • AIレビューは人間のレビューを置き換えるのではなく、追加のレビュー手段として使われ、マージ品質の向上に貢献している
  • セキュリティ研究者たちもAIを広範かつ効果的に活用しており、高品質なセキュリティ報告が多数寄せられている
  • curlプロジェクトではセキュリティが最優先事項であり、欠陥を減らすためのさまざまなソフトウェアエンジニアリング指針と手順が適用されている
  • 欠陥スキャンはcurlを安全に保つための複数段階のうちの1つにすぎず、curlほどソフトウェアセキュリティに力を入れている、あるいはさらに先まで進んでいるプロジェクトを見つけるのは難しそうだ

2026年5月6日のMythos初回分析結果

  • Mythosが生成した最初のソースコード分析レポートは、curlを改善する領域と修正すべきバグを見つける機会となった
  • 初期スキャンはcurlのgitリポジトリとmasterブランチの特定の最近のコミットを対象に実施された
  • 分析対象はsrc/lib/配下の17万8千行のコードだった
  • レポートでは、複数のアプローチと手法でどのような欠陥を見つけようとしたのかが詳しく説明されている
  • レポート冒頭には、curlは「OSS-Fuzz、Coverity、CodeQL、複数の有償監査」を受けた、最も多くファジングおよび監査されたCコードベースの1つであり、HTTP/1、TLS、URL解析の中核経路では何かを見つけるのは難しいだろうという説明があった
  • Mythosはその中核経路では実際に問題を見つけられなかった

curlコードベースの規模とセキュリティ履歴

  • curlは空行を除くと現在17万6千行のCコードで構成されている
  • ソースコードは66万語で成り立っており、英語版小説War and Peace全体より**12%**多い語数に相当する
  • curlの本番ソースコード1行あたり、書かれた後に書き直された平均回数は4.14回である
  • 現在のgit masterに残っている既存の本番コードは573人の個別コントリビューターが書いた
  • これまでcurlのgitリポジトリには合計1,465人のコントリビューターが提案した変更がマージされてきた
  • curlはこれまでに**188件のCVE** を公開している
  • curlは200億以上のインスタンスにインストールされている
  • curlは110以上のOS28種のCPUアーキテクチャで動作する
  • curlはスマートフォン、タブレット、自動車、テレビ、ゲーム機、サーバーで動作している

「確認済み脆弱性5件」は実際には1件に縮小

  • Mythosのレポートは、「Confirmed security vulnerabilities」5件を見つけたと結論づけていた
  • curlセキュリティチームが数時間かけて詳細をレビューした結果、5件のうち実際に確認された脆弱性は1件だけになった
  • 残り4件のうち3件は、APIドキュメントに記載された制限を指摘した誤検知と判断された
  • 残る1件は脆弱性ではなく一般的なバグと判断された
  • 確認された唯一の脆弱性は、**深刻度低(severity low)**のCVEになる予定である
  • そのCVEは次のcurlリリースである8.21.0に合わせて6月末に公開される計画だ
  • その脆弱性の詳細は公開前まで明らかにされない
  • Mythosのレポートには、脆弱性ではないと結論づけられた複数のバグも含まれており、curlチームは同意できる項目を1つずつ調査して修正している
  • レポートには約20件のバグが整理されて含まれており、誤検知はほとんどなかった
  • 今回のレポートによってcurlは改善されているが、発見件数だけを見れば、以前に使っていたAIツール群のほうがより多くのバグ修正を導いていた
  • 初期のツール群がより多く、より簡単なバグを先に見つけており、その後問題が修正されるにつれて新たな欠陥を見つけるのが次第に難しくなった状況も反映している
  • バグは小さいことも大きいこともあるため、単純に数字だけを比較するのは必ずしも公平ではない

Mythosは特別に「危険」なレベルには見えない

  • curlの分析結果だけを見ると、Mythosをめぐる大きな注目は主にマーケティングによるもののように思えるという結論になる
  • Mythosの構成が以前のツール群より特別に高い水準、あるいはより高度な水準で問題を見つけているという証拠は見当たらない
  • Mythosが少し優れている可能性はあるが、コード分析に重大な差を生むほど優れているとは見えない
  • ただしこの評価は、curlという1つのソースコードリポジトリで得られた結果に限られる
  • Mythosが他の対象でははるかに優れている可能性は排除されない

AIコード分析器は依然として非常に強力

  • AIベースのコード分析器は、過去の従来型コード分析器よりもソースコードのセキュリティ欠陥やミスを見つけるのにかなり優れている
  • 現代のAIモデルはいずれもこの作業に適しており、時間と試行錯誤する意欲のある人ならセキュリティ問題を見つけられる
  • 高品質な混沌は実際に起きている
  • まだAIベースのツールでソースコードをスキャンしていないプロジェクトは、この世代のツールによって多くの欠陥、バグ、潜在的脆弱性を見つけられる可能性が高い
  • それはMythosに限らず、ほかの多くのAIツールでも実現できる可能性がある
  • プロジェクトでAIコード分析器を使わなければ、見つかっていない欠陥を攻撃者や悪意ある行為者が見つけて悪用するための時間と機会を残すことになる

AI分析器が既存分析器と異なる点

  • AI分析器は、コメントがコードについて述べている内容と実際のコード動作が食い違っている場合にそれを見つけられる
  • 通常は分析器を実行できないプラットフォームや設定のコードも点検できる
  • サードパーティライブラリやAPIの詳細を「知って」いるため、誤用や誤った前提を検出できる
  • curlが実装するプロトコルの詳細を「知って」いるため、コードがプロトコル仕様に違反していたり矛盾しているように見える箇所を問題として指摘できる
  • 既存の分析器では退屈で難しいこともある欠陥の要約や説明を、概してうまくこなせる
  • 見つけた問題に対するパッチを生成して提案できるが、そのパッチは通常100%完全な修正ではない

Mythosレポートの詳細

  • Mythosのレポートは、メモリ安全性の脆弱性は0件と結論づけている
  • 方法論として、このレビューはLLMのサブエージェントを使って並列ファイル読み取りを行う手動主導の分析だった
  • 記録前に、候補となったすべての発見事項はメインセッションで直接ソースを確認して再検証された
  • CVEとその亜種探索のマッピングは、curl自身のvuln.jsonから構築された
  • 自動SASTツールは使われなかった
  • この結果は、curlが最も多くファジングおよび監査されたCコードベースの1つであるという現状と一致している
  • curlの防御インフラは、通常この規模のコードベースで成果が出やすいバグの種類を体系的に塞いでいる
  • 防御要素には、制限付きのdynbuf、すべての数値解析で明示的な最大値を使うcurlx_str_number、オーバーフローガード付きのcurlx_memdup0CURL_PRINTFによるフォーマット文字列の強制、プロトコルごとの応答サイズ制限、pingpongの64KB行制限が含まれる
  • カバレッジは、すべての小規模プロトコル、すべてのファイルパーサー、すべてのTLSバックエンド検証経路、HTTP/1・2・3、FTPの全深度、mprintfx509asn1、DoH、すべての認証メカニズム、コンテンツエンコーディング、接続再利用、セッションキャッシュ、CLIツール、プラットフォーム固有コード、CI・ビルドサプライチェーンにまで及ぶ

AIは既存タイプのエラーを新たに見つける

  • AIツールは、すでに知られている一般的で確立された種類のエラーを見つけており、その新しいインスタンスを掘り当てているにすぎない
  • これまでAIがまったく新しい種類の脆弱性や前例のないタイプの脆弱性を報告したことはなかった
  • AIがセキュリティ分野そのものをその形で再発明しているわけではない
  • ただし、以前のどのツールよりも多くの問題を掘り起こしている

まだ終わっていない欠陥探し

  • 今回の結果が最後のバグ発見や報告というわけではない
  • 当時もセキュリティ研究者から疑わしい問題に関する追加報告が届いていた
  • AIツールはさらに改善されるだろうし、研究者は既存のAIにさらに多くの問題を見つけさせる新たなプロンプト手法を見つけるかもしれない
  • curlはMythosや他のAIによる反復的なスキャンを受け続け、本当に新しい問題がもう出なくなるまで続けられることを期待している

2件のコメント

 
GN⁺ 2 시간 전
Hacker Newsのコメント
  • 引用: 「このモデルに対する大きな過熱は、主にマーケティングだったという結論以外に出せない。この構成が Mythos 以前のツールより、特に高いレベルやより高度なやり方で問題を見つけるという証拠は見ていない。多少は良いのかもしれないが、コード解析に意味のある変化をもたらすほど優れているようには見えない」
    この分野の競争は激しく、露骨であれ微妙であれマーケティングが多く混ざっていることを、みんなに思い出させてくれる

    • Anthropic が自社モデルはより先進的で、より優れていて、AI は脅威だから規制が必要で、その解決策は自分たちしかないと説得するためにマーケティングを使うとしても驚かない
      もう少し真面目に言えば、今のところ Mythos がセキュリティ特化のコード解析装置を付けた Opus を超えているというシグナルはあまり見えていない。それでも、こうしたバグを自動で見つけられるという事実そのものが、誇大広告を除けばより重要なポイントだ
      検出の誤り率が気になる。90% が外れていて、マーケティングに使える事例だけを聞かされているのなら、あまり意味はない
    • おおむね予想どおりの結果だが、大きな手がかりはすでに既存の LLM ベースのツールが広範に監査されたコードベースで使われていたことだ
      だから Anthropic のマーケティングが誇張だった可能性はあっても、そもそも残っているものがあまりなく、記事でもその点に触れている
      別種のプロジェクトで大きな進歩かどうかを判断するのは難しいが、今日の時点で誰もが既存コード監査のためにAI コードレビュー ツールを使うべきで、実際にはまだ誰もがそうしているわけではないことは明らかになった
    • curl は良いデータポイントではない。現存するコードベースの中でも最も掘り尽くされている部類で、セキュリティテストの慣行も非常にしっかりしている
      Mythos に近いが同一ではないモデルを使う研究者たちにも、これまでバグを報告する十分な時間があった。Daniel が Mythos は curl にとってゲームチェンジャーではなかったと見るのは正しいかもしれないが、ほぼすべての他のコードベースでは前提条件が違う。本当のマーケティングは、むしろ curl の成熟度に対する彼の謙虚さなのかもしれない
    • Mozilla が Anthropic の代わりにマーケティングしているのか?
      Anthropic との継続的な協業の一環として、Claude Mythos Preview の初期バージョンを Firefox に適用する機会があった。今週の Firefox 150 リリースには、この初期評価で確認された脆弱性271件の修正が含まれている
      こうした能力がより多くの防御側に届くにつれ、多くのチームが、最初の結果が明確に見えたときに私たちが感じたのと同じめまいを経験している。十分に鍛えられた対象でこの種のバグが 1 件見つかるだけでも 2025 年基準では警戒レベルだっただろうに、それが一度にこれだけ出てくると、本当に追いつけるのか立ち止まって考えさせられる
      https://blog.mozilla.org/en/privacy-security/ai-security-zer...
    • 過熱の大半がマーケティングだった可能性は十分ある
      もう一つの可能性は、curl が十分に安全で、他のプロジェクトより見つかるものがずっと少なかったということだ
  • 「本当に驚くほど成功したマーケティングイベント」という表現には同意する。Anthropic はうまくやった
    オランダの小さな準政府組織の CISO にまで届き、Mythos とともにやって来るという脆弱性の津波の発表に少しパニックになった
    おかげで取締役会からより多くの予算と優先順位を得られた。良いマーケティング由来の恐怖は無駄にすべきではない

    • 「津波は見えない」には同意しない。Firefox で 100 件超のバグ、さらに多くのオープンソースプロジェクト、これまで見たことのない古い OpenBSD/Linux のリモートコード実行脆弱性、Linux 自体でもわずか 2〜3 週間の間にいくつかのローカル権限昇格が出ている
      見たところ、これはマーケティング恐怖ではなく、高品質で誤検知の少ない脆弱性公開が急増している兆候だ。数年分の高品質バグ報告を、たった数週間で高速にざっと見ている感じがする
    • Anthropic は同じ手口を繰り返していて、顧客からの好感を急速に失っている。個人的にはひどいマーケティング
      会社が一般的な LLM のサイバーセキュリティ脅威を研究することと、「うちの新モデルは強力すぎる」といった方向に議論を誘導することはまったく別物だ。ねっとりしていて不快だ
    • 彼は、curl がほぼ限界までソフトウェア工学的に磨き込まれていることを詳しく説明している。本当に、ほとんどのコードがそこまで高度に磨かれていると思うのか?
  • AI エージェントがあるソフトウェアユーティリティでバグを 0 件見つけたとして、なぜそれがその AI エージェントはバグ探しが不得意だという意味になるのだろう?
    実際にバグが 0 件だったらどうする?
    「5 件の問題は、広範な一覧を期待していた私たちには何でもないように感じられた」という期待のほうが現実に合っていなかったのかもしれない。しかし、その理由が必ずしも Mythos の能力が主張より低いからとは限らない。curl は現状ではセキュリティ脆弱性が多くない、十分に強化されたツールなのかもしれない

    • 筆者も残っているバグについて同じ点を考慮していた
      「まだ見つかるものはある。これらが見つける、あるいは報告する最後のバグになることは決してない。このブログ記事の草稿を書いている間にも、セキュリティ研究者から疑わしい問題の報告をさらに受け取った。AI ツールはさらに改善されるだろうし、研究者たちは既存の AI にもっと多く見つけさせるための新しい、異なるプロンプト手法を見つけられるかもしれない。私たちはまだ終点に達していない。Mythos や他の AI で curl のスキャンを繰り返し続け、本当に新しい問題がそれ以上見つからなくなるまで続けられることを願っている」
      もっともだ。まともな新発見が残りちょうど 1 件だけで、それをたまたま Mythos のリリース時点で Mythos だけが見つけ、他のプロジェクトはその直前まで全発見を素早くさらっていたと考えるには、かなり大きな偶然が必要になる。あり得なくはないが、疑問を差し挟むときの最も安全な出発点ではない
  • curl は性質上、比較的単純で境界の明確なツールだと考えざるを得ない。OS、Web ブラウザ、データベース、数十億ドル企業のコードベースと比べればいい
    Mythos/ChatGPT 5.5 が、curl にはない複雑性に対してはるかにうまくやれるというのは、ある程度もっともだ。curl は「何でもできるクライアント」として機能が非常に多いとはいえ、私たちが依存する他のソフトウェアより複雑さは桁違いに低い

    • curl は思っているよりずっと複雑だ。多くの人は HTTP(S) エンドポイントを叩いて出力するコマンドラインツールとしてしか知らないが、実際にはほぼあらゆるファイル転送プロトコルをサポートし、長時間動作するプロセス向けに設計されたライブラリでもある
      長時間動作するプロセスを想定しているため、接続やリソースをパイプライン化して再利用するために考え得るあらゆる手法を使っている。既存のイベントループに統合できるよう、非同期 API もある
      Web ブラウザやデータベースのほうが複雑かと言えば、もちろんその可能性は高い。あれらは本当に巨大な問題を解いている。しかし curl は、それを使うほとんどのアプリケーションコードより確実に複雑だ
    • かなり基本的なツールだという点には同意するが、記事で言うようにコードの長さは戦争と平和より長い。その規模なら、セキュリティ脆弱性が入り込む余地はまだ十分にある
    • 記事を引用すると: 「curl は空行を除くと現在 C コード176,000 行である。ソースコードは 660,000 語で構成されており、英語版小説『戦争と平和』全文より 12% 多い」
      「curl は 200 億を超えるインスタンスにインストールされている。110 を超える OS と 28 の CPU アーキテクチャで動作する。地球上のあらゆるスマートフォン、タブレット、自動車、TV、ゲーム機、サーバーで動いている」
      これを単純または境界が明確だと呼ぶのは難しい。ほとんどの OS や Web ブラウザでさえ、自動車や TV では動いていない
  • 「特に危険ではない」という結論は、あまり導けていないように見える。言及されているように curl は、すでに利用可能なあらゆるツールで徹底的に解析されており、ほとんどのソフトウェアはそうではない

    • しかし Mythos は、既存ツールがすでにできることを少しうまくやるツールとしてではなく、革命としてマーケティングされている
    • Mythos は危険か危険でないかのどちらかだ。ここで危険とは、「利用可能なツールで見つかるバグよりはるかに多くの脆弱性を見つける」という意味で使っている
      Mythos が追加で見つけた脆弱性は 1 件だけで、x+1 は x よりはるかに大きくない。したがってこの定義によれば、Mythos は危険ではないという結論になる
    • そうだが、これは Mythos を他のモデルと比較した判定ではないのか?
      だとしても結論はやはり成り立つ。「ほとんどのソフトウェア」は curl ほど解析されておらず、他のツールや他のモデルでも解析されていない。そうしたツールが Mythos とほぼ同じ結果を出せるなら、Mythos を特別に危険だと見るのは難しい
    • 「特に危険ではない」というのは、見つかった脆弱性についての話ではなかったか? 低い深刻度をどう見るかは、彼らがよく分かっていそうだ
    • curl は現在、高品質なバグ/脆弱性報告を記録的な数で受け取っている。昔の低品質な物量攻勢とはかなり急激に違う流れで、見つかるものがないという意味ではない
      その多く、あるいは大半は AI ツールの支援を受けた人間の専門家が見つけたようだが、Mythos が本当に革命的なら、こうした問題を自力で見つけられるはずだ
      https://daniel.haxx.se/blog/2026/04/22/high-quality-chaos/、元記事でリンクされている
  • 「確認された単一の脆弱性は低深刻度の CVE になる予定で、6 月末予定の次の curl リリース 8.21.0 に合わせて公開する計画」という部分が印象的だ
    いまだにcURLに注ぎ込まれた品質と洗練の度合いを理解しきれない。あまりにきちんと作られているせいで、人々がほとんど二度考えもしないものの完璧な例だ

    • 簡単だ。プログラミング言語に関係なく、コミット・レビュー・マージされるコード 1 行 1 行に高い品質基準を適用すれば何が可能かを示している
      だが、底辺への競争、投げ売りのオフショアリング、そして今や LLM ベースのコード生成の時代では、責任の所在が生まれない限り、ほとんどの企業はこうした品質に関心を持たないだろう
    • Curl と SQLite は、きちんと工学的に作り、厳密にテストした「何でも」の最も好きな例だ。本当に哲学的ですらある
      これらのプロジェクトの貢献要件はその厳密さを要求し、メンテナーたちはその要件を守っている。それを可能にしているのは、負荷のかからない文書、つまりプロジェクトコードではない文書だ。Einstein の思考実験が GPS のような実用プロジェクトにつながったことや、あらゆる問題は合理的思考で解けるという Descartes の信念を思い起こさせる
    • そこまで良く作っておきながら、人々が結局 curl ... | bash をやって何の問題も感じていないのを見ると皮肉だ。そして「脅威モデル」みたいな言葉で回避する
      私は curl-bash は見送り、暗号学的に署名されたパッケージインストーラーを使うだろう
  • Mythos の過熱が Anthropic のマーケティングの一部なのは分かるが、高度にレビューされたコードベースなら、現状で目立つセキュリティエクスプロイトがない可能性もあるのではないか?
    何も見つからなかったという事実は、必ずしも不利な証拠ではない。特に他のツールが以前に何百件もの脆弱性をすでに特定していたならなおさらだ。今は完全に掘り尽くされた状態に見える

  • マーケティングは常に混ざるもので、人々はマーケティングを文脈に沿って見られるべきだ
    また curl はオープンソースプロジェクトで、比較的小さいが中核的で、よく知られており、どこでも使われている。画像ライブラリを除けば、curl や sudo、su、passwd のようなツールは私が最初に試してみる対象でもある
    Mythos が実際に何をできるのかは、まだまったく分かっていない。10 兆パラメータモデルとは、コストやベンチマークの観点で何を意味するのか?
    それでも、もし LLM がこうした問題を見つけるのに人間よりはるかに優れ始めたのが半年前くらいだとしたら、どこかの時点で皆が見て見ぬふりをしていた問題に向き合わなければならない。今日ではセキュリティスキャンに追加で LLM を使うべきであり、それを真剣に受け止める必要がある
    最悪の場合でも、Anthropic のマーケティングを利用して、これはもう必須で何かが変わったのだと言える

    • 「10 兆パラメータモデルとは、コストやベンチマークの観点で何を意味するのか?」という問いに対して、私にはスケーリング効果の S カーブの上端に達したという意味に見える
      その規模でもツールが目に見えて良くならないなら、収穫逓減の領域に確実に入ったということだ
    • 「Mythos が何をできるのかはまだまったく分かっていない」というのは意図された状態だ。それでも、人々がすでに何ができると信じているかを考えればいい
    • 「LLM がこうした問題を見つけるのに人間よりはるかに優れるようになった」という言い方には目を回したくなる。一般的な静的解析器だって、何十年も前から特定の機械的作業では人間より優れていたし、特定の機械的作業で人間より優れていること自体には大した意味はない
      新しくて興味深いのは、記事で説明されている、LLM が識別できる潜在的な「ぼんやりしたバグ」のタイプだ。たとえば、コメントが説明しているコードと一致しない、サードパーティライブラリの使い方が珍しい、コードと実装したプロトコルが食い違っている、あるいは全体として何となくおかしく見えて誰かがさらに詳しく見るべきコード、といったものだ。これは従来のデバッグツールボックスの隙間を埋めるが、それらを置き換えるべきではない
  • 私の見るところ、Mythos をめぐるメッセージは、最高のセキュリティ専門家と最高水準の言語・プロトコル・コード専門家の専門性を、アクセス権のある誰にでも提供するというものだ
    危険は、防御側がその水準の専門性にアクセスする前に、世界中にそのアクセス権を与えることにあった
    Curl はあらゆるものの中心にあるため、長年にわたってセキュリティ・プロトコル・言語の専門家たちが見てきた。Mythos が何かを見つけたという事実は興味深いが、それはマーケティング過熱にすぎず危険ではないというシグナルにはならない
    プロジェクトの 99.99% は curl ほど安全ではないと見てよい。オープンソースかクローズドソースかは関係ない。LLM はクローズドソースプロジェクトでも喜んでデコンパイルして探索するだろう。プロジェクトがファジングされ、既存の AI ツールや専門家にレビューされていないなら、すでに破られ得ると予想すべきだ。今あるツールだけでもそうであり、Mythos のようなものは、より少ない専門性しか持たないより広いユーザー層にもそうした能力へのアクセスを与える

    • 同意する。Anthropic は超人的性能を主張したことはなく、速度と規模だけを主張していた
      よく研究されたソフトウェアで新しい脆弱性を多く見つけられなかったという事実は、危険な誤用可能性全般について何も語らない
  • 「curl は現存する C コードベースの中でも最もファジングされ監査されている部類だ。OSS-Fuzz、Coverity、CodeQL、複数の有償監査もあった。ホットパスである HTTP/1、TLS、URL パースの中核で何かを見つけるのは難しい」と読める
    この表現だと、LLM が試して失敗したというより、そもそも試すことをやめたように聞こえる。Claude が自分で挑戦するように強く促さないと、しばしばそうなるのを見てきたので、ここで実際に何が起きたのか気になる

 
GN⁺ 3 시간 전
Lobste.rsのコメント
  • 単体で見ればそこまで驚く話ではないとしても、この結果は「以前のモデルが出て以降ほぼ毎日攻撃されてきて、最も精査されているアプリケーションの1つで、たった1回の実行でセキュリティ問題を見つけた」と捉えるべきなのだと思う

    • 「一般的な静的コード解析器を回し続け、最も厳しいコンパイラオプションを使い、何年にもわたってファジングもした」というのは、他では思った以上にほとんどやられていないことだ
      これからすべてを書き直すまで、セキュリティが低下したり失われたりする暗い時代を覚悟しなければならないのかもしれない
    • LLMが脆弱性発見に長けてきたのは確かだが、なぜcurlを最も監査されたアプリケーションの1つと表現するのかは分からない
      curlにはバグバウンティプログラムがあり、それなりに研究を引き寄せていたが、その結果DanielがAIゴミ報告に埋もれることにもなった。公開・非公開を問わず、脆弱性研究対象として決して最上位の人気対象ではない
      「ここはどうやっても見つからない」というカテゴリには入らず、特に助成金レベルの大規模計算資源を投入できるならなおさらだ
    • 脆弱性自体も低深刻度
      ブログ記事によれば、「確認された単一の脆弱性は、6月末予定の次のcurl 8.21.0リリースに合わせて公開される低深刻度のCVEになる予定」とのことだ
      また、誤検知が4件あったとも書かれている
  • 「最終的に、モデルへのアクセス権を持つ別の人が、Mythosでのcurlスキャンと解析を代わりに実行してレポートを送ってくれる、という提案を受けた。私にとってその違いはそれほど重要ではなかった。どうせさまざまなプロンプトを試したり深く掘り下げたりする時間もあまりなかっただろうから。」
    約束したほどの結果を出さない誇張マシンを回すとき、まさにこういう振る舞いをするものだ。「うちのを使ってみてください! いや、正確にはご自身で使うのではなく。こちらで代わりにやります!」そして裏では従来型で高価なやり方が回っている
    今回もそうだったのかは分からないが、その可能性は無視できるほど小さくないと思う。Mythosを使うよう持ちかけられたのに、実際にはMythosを使えず結果だけ受け取った人が他にも誰なのか気になる

    • ひょっとすると単に闇市場の脆弱性を買って、Mythosが見つけたかのように提示しただけかもしれない。そうだとすればAIが吐き出したデータポイントにすぎない
      しかも、この手の発見の多くは、保守担当者があまり見に行かないダークフォーラムで議論されていた弱点である可能性さえある
      AIがソフトウェアをより安全にできないと言っているわけではない。しかしAI企業が手の内を隠しすぎると、何が本物なのか分からなくなる
    • Anthropicについての既存の考えを補強しない代替説明も探してみたのか気になる
  • 3か月前、この人がステージ上でAIゴミ報告のせいでバグバウンティプログラムを終了すると発表するのを見た
    ツールがそれほど良くなったのか、それとも収益動機がなくなって人々が本物の脆弱性とゴミを見分けるのにより多くの時間を使うようになったのか、気になる

  • Mastodonを見ると、こういう結果は確証バイアスを暴走させるのに向いている
    ただ、確証バイアスを取り除いてみると、これを一般化するのは適切には見えない。それでもデータポイントが公開されるのは良いことだ

    • Mastodon全体にどれほど当てはまるかは分からないが、私の周囲はあまりに反AI寄りで、経験豊富な人ですらClaudeのチャットインターフェースにGitHubリンクを投げ込んで、役に立たないことを示そうとする
      だが、それはそういう使い方をするツールではない。人々に成果を見せようとしても、失敗例だけを指さして笑いたがるので本当に難しい
  • こういう記事がもっと増えてほしい
    curlで低深刻度が1件しか出なかったのは心強いが、同時に単一事例にすぎない。curlが他の重要ライブラリより単に成熟しているだけの可能性もある

  • 「世界中が正気を失ったように見えた。私たちが知っていた世界の終わりなのか? 確かに驚くほど成功したマーケティング上の見せ場だった。」
    こういう文体には興味がない。明晰な思考と堅実な推論を示してほしい。善意に解釈するべきだ
    良い証拠と推論なしにGlasswingが「マーケティング上の見せ場」だったと言うのは推測だ。健全な懐疑主義は理解できるが、健全な懐疑主義は自分の内側にも向けられるべきだ。どんな根拠でそこまで確信できるのか?
    何かが見せ場だというなら、それはどういう意味なのか? 「見せ場」という言葉を読むと、操作しようという意図があったというニュアンスに聞こえる。意図について最も直接的に語れるのは「その部屋にいた人たち」だ。それ以外はせいぜい予測をしているにすぎないのに、あまりに多くの人が予測をろくに吟味もせず、事実であるかのように断言する
    その場にいなかった人なら、断言するより自分の推論を説明するほうが賢明だ
    インセンティブはさまざまな方向を指している。ナイーブに見ているわけではない。真剣な書き手なら、読者の知性と世界を理解したいという欲求を尊重すべきだと期待する
    ある分野の専門家が別の分野に過信して踏み込み、失敗するのはよくあることだ。curlのメンテナが一般論として、特に自分が保守しているプロジェクトの位置づけについて良い認識論的基準を持っているとみなす根拠は何なのか? 人には、機械が自分よりうまくやることを望まない強い動機がしばしばある。Mythosがすでにそういう位置にあると言っているわけではない。その点は判断を保留する。ただ、この文章に見られる推論だけを見ると、筆者に感心することはあまりできない

    • Glasswingがマーケティング上の見せ場だったというのが早計だという点には同意しない。「成功したマーケティング上の見せ場」という文の直後に続く内容を見ると、公正な批判だったと思う
      「Project Glasswingの一環として、AnthropicはLinux Foundationを通じて『オープンソースプロジェクト』に最新AIモデルへのアクセス権も提供した。Linux Foundationはこの部分をAlpha Omegaプロジェクトに担当させ、その代表者たちが私に連絡してきた。curlのリード開発者として、私は魔法のようなモデルへのアクセス権を提案され、喜んで受け入れた。もちろんcurlで何が見つかるか見てみたかった。」
      文章全体を読んだ印象では、著者はGlasswingがただのマーケティング上の見せ場だったと言っているのではなく、マーケティング上の見せ場としては確かに成功しており、それ以上のものかどうかはまだ未定だと見ているようだ
      引用の後に続く残りの文章は、単なるマーケティング以上のものがあり、「それでもなお非常に良い」と結論づけている。これまで受けてきた息をのむようなマーケティング上の誇張ほどではなくても、役に立つ可能性は高いという趣旨だった
    • OpenAIはほどなく定期アップグレードの流れに従って新しいモデル版を出し、この分野で同様の能力を示したが、特にファンファーレも騒ぎもなかった
      単にGPT-5.5だった。そういう点では、いわゆる危険性を理由にMythosを隠したのは、セキュリティ活用事例に注目を集めて新たな需要を作り出す意図があったのかもしれないと思う