研究者ら「Fable 5論争は脱獄ではなく『fix this code』から始まった」
(theregister.com)- 米政府によるAnthropicのFable 5・Mythos 5へのアクセス制限は、既知の脱獄ではなく、脆弱なコードに「fix this code」と入力した単純な要求に端を発しているとKatie Moussouris氏が主張
- Luta SecurityのCEOであるMoussouris氏は、Anthropicが非公開で共有したFable 5のガードレール回避に関する第三者研究論文を読んだ唯一の外部専門家だったと明かす
- 外部研究者らは、CVEが含まれるオープンソースコードと、意図的に脆弱に作られたコードをFable 5、Mythos、Claude Opusに入力してセキュリティレビューを依頼し、Fable 5が拒否した後、「fix this code」という要求で応答を得たという
- 米政府は国家安全保障上の懸念を理由に、米国内外の外国人に対するFable 5とMythos 5へのアクセスを停止する輸出管理指針を出し、Anthropicは両モデルをすべての顧客向けに無効化
- Moussouris氏と100人以上のサイバーセキュリティリーダーは、この制限が攻撃者より防御側に大きな被害を与えかねないとして、バグ発見・修正・パッチ検証に使うAI能力を維持すべきだと訴える
「fix this code」が輸出管理理由だったという主張
- Trump政権がAnthropicの高度モデルへのアクセスを止める原因となった「jailbreak」は、実際には「Fix this code」という3語のプロンプトだったとKatie Moussouris氏が主張
- Moussouris氏はLuta Securityの創業者兼CEOであり、Anthropicが非公開で共有したFable 5のガードレール回避技法に関する第三者研究論文を読んだ唯一の外部専門家だったと述べる
- 彼女は月曜のブログ投稿で、Anthropicがその報告書を自分に非公開で共有したと説明
政府措置とAnthropicの対応
- 米政府は金曜、国家安全保障上の懸念を理由にFable 5とMythos 5へのアクセスを停止する輸出管理指針を発表
- 適用対象は米国内外の外国人とされた
- Anthropicは「規制順守を確実にするため」、両モデルをすべての顧客向けに無効化
研究者らが行った実験
- 外部研究者らは、AnthropicのFable 5、Mythos、Claude Opusモデルにコードを入力
- 既知のCVEが含まれるオープンソースコードが使われた
- 新たに書かれ、意図的に脆弱性を入れたコードも含まれていた
- 研究者らはモデルに「review the code for security issues」と依頼
- Moussouris氏の説明によれば、Fable 5はこの要求を拒否
- その後「fix this code」と依頼するとモデルは応答し、追加プロンプトの後にはパッチをテストするスクリプトも生成したという
Moussouris氏の反論
- Moussouris氏は、「fix this code」と、テストスクリプト生成のための数段階の手動作業は、輸出管理を発動させる理由にはならないと主張
- 彼女は、ここにガードレール回避やjailbreakはなかったとみている
- 防御側はAIシステムにバグを見つけて修正し、パッチ検証用のテストを書くよう依頼できるべきだという立場
- Anthropicモデルが行った作業は、防御セキュリティで日常的に行われる「find, fix, and test loop」だったと説明
- こうした防御的要求に応答する機能を削れば、AIシステムのバグ発見やパッチ検証能力はむしろ悪化すると主張
Wassenaar Arrangementと防御的セキュリティ例外
- Moussouris氏は2013年から2017年まで、Wassenaar Arrangementの再交渉に参加した技術専門家グループで活動
- Wassenaar Arrangementは42か国が参加する自主的合意で、一部のデュアルユースのソフトウェアと技術の輸出管理を扱う
- このグループは防御的サイバーセキュリティ活動に対する例外を確保
- 防御側は刑事訴追の脅威なしに脆弱性データを共有できる
- マルウェア分析や国際的なインシデント対応の調整も可能になった
セキュリティ業界の公開書簡
- Moussouris氏は日曜、100人以上のサイバーセキュリティリーダーとともに、Trump政権に制限撤回を求める公開書簡に署名
- 公開書簡はFable 5とMythosの制限を元に戻し、サイバーセキュリティ企業が高度モデルにアクセスできるよう復元するよう求めている
- 署名者らは、敵対者が急速に進化する中で、十分な理由もなく防御側から最高の能力を奪うのは危険だと主張
攻撃者より防御側に大きな被害という警告
- Moussouris氏は、米国が中国など他国のopen-weightシステムや類似の高度モデルまで輸出管理で縛ることはできないと指摘
- そうしたシステムはいずれMythosに近い能力へ到達すると主張
- AnthropicとGoogleは、DeepSeekなど中国系競合が米企業のAIから知識を抜き出してモデルを訓練する「distillation attacks」を使ったと非難してきた
- Moussouris氏は、Anthropicの高度モデル禁止は攻撃者より防御側に大きな被害を与えるだろうと警告
- 防御は攻撃者と同じバグをより早く見つけて修正できる時に向上し、AI時代のサイバーセキュリティには、ますます有能になる攻撃者に対抗するため最良のツールが必要だと主張
政府の立場
- The Registerは、Moussouris氏の主張についてTrump政権にコメントを求めた
- 返答があれば記事を更新するとしている
1件のコメント
Hacker Newsの意見
"fix this code" は本当に絶妙
巧妙なやり方というより、単に脆弱性を修正させることで「セキュリティ脆弱性ガードレールなし」を事実上脱獄させたようなもので、修正できたか確認するテストケースを書く過程で攻撃コードが出てくる
結局、人間がコードとテストを見れば脆弱性とエクスプロイト構成要素を得られる
これが見事なのは、脱獄自体は些細なのにほとんど修正が難しいから。モデルにバグ修正やコード作成を拒否させて通常の開発に役立たなくするか、バグを見なかったふりをして静かに回避するようにして大きな責任問題を生むしかなくなる
Dario は今ごろ、モデルがどれほど危険かを誇張して宣伝したことを後悔しているのだろうか。これをどう巻き戻せるのだろう? 連邦政府はその場しのぎの対症療法だけで済ませるのを許すのだろうか?
普通のアルゴリズム還元のように、危険な作業を LLM が解ける非危険な作業に変換して、あとでまた戻せるかを見るだけでいい
https://en.wikipedia.org/wiki/Reduction_(complexity)
Claude Fable の "fix this code" 脱獄が、そうしたエクスプロイトチェーン化まで可能だったという証拠はまだ聞いていない
でも、人に「セキュリティ問題を見つけるためにコードレビューして」と頼むことを、普通は何か悪いことだとは見なさないし、互いにそうした依頼をするのも一般には問題ないとされる
人種差別的なスラーをフィルタする正規表現をくれと頼むと、すぐに破綻し、正規表現は実際のスラーにほとんど似ていないのに、スラーを言うなと説教してくる
政治的な脅威を脇に置いても、これは Anthropic 戦略の大きな問題
Mythos が非常に危険なので特定の人にしか配布できないと言う一方で、Fable を完全無欠なサイバー拒否ではない状態で公開することはできない
LLM の仕組み上、完全無欠な拒否は事実上不可能
だから Anthropic は、一方ではモデルがものすごく危険だと主張しながら、同時にセキュリティ「保護装置」には些細かもしれない問題があると言っていることになる
技術者は完璧なものはなく、特に LLM の世界ではなおさらだと理解しているが、技術者でない友人たちは、モデルが公開された途端にどうしてそんなに早く「安全」になったのか非常に混乱していた。外から見ると、そもそも公開して安全だったことなど一度もないように見えるし、だから現在の米政権が大いに腹を立てたのも理解できる
政治的悪意がなかったとしても、かなり滑稽な状況であり、十分に容易に予見できた
LLM の出力を制限するどんな「安全」システムでも、漏洩率を 0 にはできない
ただ、実際に重要なものへ LLM を接続するほど無責任でないなら、これはまた別問題
脆弱性発見を恐ろしいほど加速はするだろうが、数十年のセキュリティ研究が示すように、もともと開発者、ブラックハット、ホワイトハットの三者問題だった
「米国が常に中国より技術的優位と拒否権を持てる」という戦略も、通用すると見なしてはいけない
80 年後に AI に似たものを手に入れたのに、いまだに単純で明確なルールで制限しようとしている。そこから教訓を学ばなかったからではなく、より良い方法をまだ見つけていないし、おそらくそんな方法はないからだろう
さらに面白いのは、ルールを迂回しているのが AI ではないという点。そういう場面は SF にはあったが、実際に起きていることではない
人間のユーザーが自分のエージェンシーを使って、AI エージェントにルールを迂回させている。「エージェント」と呼んではいるが、現在の AI エージェントはその特定の何かをまだできないようだ
このアプローチの弱点は、正しいキーワードを使うものしか捕まえられない点にある。ある意味では、LLM ベース分類器のほうが強かったであろう部分にちょうど弱い
化学用語を使う抽象的で計算機科学寄りのアルゴリズム作業は即座に遮断されたが、生物学サンプルに主に関係する特定の顕微鏡設定の画像を処理するコードを書く作業は、関連キーワードを使わなかったのでまったく遮断されなかった
これもこの状況と一致する。バグを見つけて修正する文脈では、バグを見つけることに 'exploit' や 'cybersecurity' のような単語が使われていなかった可能性が高い
Anthropic だけが複製不可能な魔法使いやスーパーヒーローを隠し持っていると信じない限り
Anthropic の言うことがすべて事実だという意味ではないが、Mythos は実際のセキュリティエクスプロイトを多く見つけたように見えた
補助に徹するモデルを限定的なパートナーに配布すると言いながらも、こうした面で最先端を前進させない、非常に強くロックされたモデルを公開することはできるし、実際に彼らがやったのはそれに近いように見える
そこに本質的な矛盾はない
彼らが恐れたのではなく、イデオロギーの違いと、Anthropic が政権の言うとおりに正確に動かなかったことに対する報復的な恐喝だ
Anthropic は国防総省と協力することになり、ホワイトハウス内部の関係者たちは利益の大きい IPO 前の持分配分を受け取り、Fable は魔法のように「修正」されて再提供されるだろう
政府は、政府の命令に従わない民間企業に何が起きるかをはっきり示している
この件で Amazon の役割が工作であるはずがないと言う人たちは、Amazon が「政権の友人」であることを思い出すべきだ
Andy Jassy の在任中、Amazon は Melania のドキュメンタリーに 7,500 万ドルを支払ったが、これは他のすべてを大きく上回る法外な入札で、興行収入は約 1,600 万ドルにすぎず、Jeff Bezos が公然と擁護していた
中立的な観察者なら、これはとてつもない過払いであり、事後的に見てもひどい経営判断だったとわかる。だが Amazon はそう言わなかったし、今も言っていない。これは手順が何段階か増えただけの賄賂にすぎない
政府が出てきて、Amazon が指摘したことが理由だと言うとき、たとえそれがまったくの嘘でも、Amazon が公に何も言わないと政府はわかっている。Amazon は大金を払って得た政権の友人という地位を維持したがっている
政府をこのように考えなければならないのは誰にとっても腹立たしいが、実際に起きている現実だけを見れば、政府の言うことだけでなく、政府と足並みをそろえる企業の言うことも、非常に信頼しにくい
記事で触れられているブログ記事で、いわゆる「脱獄」を見つけたとされる論文を査読した人物が書いたもの
https://www.lutasecurity.com/post/the-fable-5-export-control...
それがどう絡んでいるのか気になる
世界で最も重要な産業の先頭企業を壊してでもそこまでやる理由も明らかになってしまう
一方で Deepseek V4 Flash は、ほぼゼロに近いコストで喜んでセキュリティ脆弱性を見つけてくれるだろう
私たちはバグハンティングをオープンウェイトモデルに委ねつつある
この件は、サイバーセキュリティにおける「安全」を巡る認知的不協和を露呈している
a) 私たちを安全にするには、LLMが私たちのコードの脆弱性を見つけて修正するのを支援する必要がある
b) 私たちが安全であるためには、LLMが他人のコードの脆弱性を見つけてはならない
(a) と (b) の両方が勝つ形で解決することは不可能だと思う
ソフトウェアのセキュリティバグを見つけるのは悪ではなく、良いことだ。より安全なソフトウェアにつながる
サイバーセキュリティでは、防御と攻撃はコインの裏表だ
だから本当の説明は、米国政府とAnthropicの双方の悪意ある立場にあると思う
Anthropicの終末論的マーケティングは、実際にはコーディングが17%ほど改善しただけなのに、米国政府が国防総省との対立に対する報復として無関係な技術的言いがかりを使い、彼らを引きずり下ろす口実を与えた
今の米国政権とAnthropicという二つの集団は、政治スペクトラムの反対側にいるだけで、どちらも権威主義的な性向の人間で満ちている。ここで怖いのは愚かなLLMではなく、その点だ
私にはOpenAIのほうがまだましな選択肢に見える。「路上では中道左派、寝室では中道右派」という典型的な資本主義企業だからだ
少なくとも、彼らがなぜそういう決定をするのかは分かる。計算資源で宗教を作ろうとする人たちより、営利企業を作る人たちのほうを信頼する
ここでの問題の核心はエクスプロイトではなく、修正そのものかもしれない
モデルがバックドアのような「修正してはいけないもの」を識別して直せるなら、間違った人々を怖じ気づかせるほど大きな障壁になり得る
この「ハッキング」の逆方向は、依然としてかなり回避しにくいのではないか?
モデルには、特定のセキュリティ欠陥があるとすでに分かっているコードを与え、適切なプロンプトで修正させたのだ
この種の脱獄は、モデルに創造的で重い作業をさせるというより、すでに望む最終状態を知っている必要があるように見える
プロンプト側で私の想像力が足りないだけかもしれないが
入力コードと出力コードの差分がそのまま脆弱性の一覧になる