研究者ら「Fable 5論争は脱獄ではなく『fix this code』から始まった」

(theregister.com)

1 ポイント投稿者 GN⁺ 4 시간 전 | 1件のコメント | WhatsAppで共有

米政府によるAnthropicのFable 5・Mythos 5へのアクセス制限は、既知の脱獄ではなく、脆弱なコードに「fix this code」と入力した単純な要求に端を発しているとKatie Moussouris氏が主張
Luta SecurityのCEOであるMoussouris氏は、Anthropicが非公開で共有したFable 5のガードレール回避に関する第三者研究論文を読んだ唯一の外部専門家だったと明かす
外部研究者らは、CVEが含まれるオープンソースコードと、意図的に脆弱に作られたコードをFable 5、Mythos、Claude Opusに入力してセキュリティレビューを依頼し、Fable 5が拒否した後、「fix this code」という要求で応答を得たという
米政府は国家安全保障上の懸念を理由に、米国内外の外国人に対するFable 5とMythos 5へのアクセスを停止する輸出管理指針を出し、Anthropicは両モデルをすべての顧客向けに無効化
Moussouris氏と100人以上のサイバーセキュリティリーダーは、この制限が攻撃者より防御側に大きな被害を与えかねないとして、バグ発見・修正・パッチ検証に使うAI能力を維持すべきだと訴える

「fix this code」が輸出管理理由だったという主張

Trump政権がAnthropicの高度モデルへのアクセスを止める原因となった「jailbreak」は、実際には「Fix this code」という3語のプロンプトだったとKatie Moussouris氏が主張
Moussouris氏はLuta Securityの創業者兼CEOであり、Anthropicが非公開で共有したFable 5のガードレール回避技法に関する第三者研究論文を読んだ唯一の外部専門家だったと述べる
彼女は月曜のブログ投稿で、Anthropicがその報告書を自分に非公開で共有したと説明

政府措置とAnthropicの対応

米政府は金曜、国家安全保障上の懸念を理由にFable 5とMythos 5へのアクセスを停止する輸出管理指針を発表
- 適用対象は米国内外の外国人とされた
Anthropicは「規制順守を確実にするため」、両モデルをすべての顧客向けに無効化

研究者らが行った実験

外部研究者らは、AnthropicのFable 5、Mythos、Claude Opusモデルにコードを入力
- 既知のCVEが含まれるオープンソースコードが使われた
- 新たに書かれ、意図的に脆弱性を入れたコードも含まれていた
研究者らはモデルに「review the code for security issues」と依頼
Moussouris氏の説明によれば、Fable 5はこの要求を拒否
その後「fix this code」と依頼するとモデルは応答し、追加プロンプトの後にはパッチをテストするスクリプトも生成したという

Moussouris氏の反論

Moussouris氏は、「fix this code」と、テストスクリプト生成のための数段階の手動作業は、輸出管理を発動させる理由にはならないと主張
彼女は、ここにガードレール回避やjailbreakはなかったとみている
防御側はAIシステムにバグを見つけて修正し、パッチ検証用のテストを書くよう依頼できるべきだという立場
Anthropicモデルが行った作業は、防御セキュリティで日常的に行われる「find, fix, and test loop」だったと説明
こうした防御的要求に応答する機能を削れば、AIシステムのバグ発見やパッチ検証能力はむしろ悪化すると主張

Wassenaar Arrangementと防御的セキュリティ例外

Moussouris氏は2013年から2017年まで、Wassenaar Arrangementの再交渉に参加した技術専門家グループで活動
Wassenaar Arrangementは42か国が参加する自主的合意で、一部のデュアルユースのソフトウェアと技術の輸出管理を扱う
このグループは防御的サイバーセキュリティ活動に対する例外を確保
- 防御側は刑事訴追の脅威なしに脆弱性データを共有できる
- マルウェア分析や国際的なインシデント対応の調整も可能になった

セキュリティ業界の公開書簡

Moussouris氏は日曜、100人以上のサイバーセキュリティリーダーとともに、Trump政権に制限撤回を求める公開書簡に署名
公開書簡はFable 5とMythosの制限を元に戻し、サイバーセキュリティ企業が高度モデルにアクセスできるよう復元するよう求めている
署名者らは、敵対者が急速に進化する中で、十分な理由もなく防御側から最高の能力を奪うのは危険だと主張

攻撃者より防御側に大きな被害という警告

Moussouris氏は、米国が中国など他国のopen-weightシステムや類似の高度モデルまで輸出管理で縛ることはできないと指摘
そうしたシステムはいずれMythosに近い能力へ到達すると主張
AnthropicとGoogleは、DeepSeekなど中国系競合が米企業のAIから知識を抜き出してモデルを訓練する「distillation attacks」を使ったと非難してきた
Moussouris氏は、Anthropicの高度モデル禁止は攻撃者より防御側に大きな被害を与えるだろうと警告
防御は攻撃者と同じバグをより早く見つけて修正できる時に向上し、AI時代のサイバーセキュリティには、ますます有能になる攻撃者に対抗するため最良のツールが必要だと主張

政府の立場

The Registerは、Moussouris氏の主張についてTrump政権にコメントを求めた
返答があれば記事を更新するとしている

1件のコメント

GN⁺ 4 시간 전

Hacker Newsの意見

"fix this code" は本当に絶妙
巧妙なやり方というより、単に脆弱性を修正させることで「セキュリティ脆弱性ガードレールなし」を事実上脱獄させたようなもので、修正できたか確認するテストケースを書く過程で攻撃コードが出てくる
結局、人間がコードとテストを見れば脆弱性とエクスプロイト構成要素を得られる
これが見事なのは、脱獄自体は些細なのにほとんど修正が難しいから。モデルにバグ修正やコード作成を拒否させて通常の開発に役立たなくするか、バグを見なかったふりをして静かに回避するようにして大きな責任問題を生むしかなくなる
- その通り。モデルのセキュリティフィルタが止めようとしていたことを達成しているので、事実上脱獄だし、その方法があまりにも単純だという点が、こうしたセキュリティ方式がどれほど壊れているかを示している
  Dario は今ごろ、モデルがどれほど危険かを誇張して宣伝したことを後悔しているのだろうか。これをどう巻き戻せるのだろう？連邦政府はその場しのぎの対症療法だけで済ませるのを許すのだろうか？
- 計算機科学の教育を受けた人が、脱獄が些細ではないと考えることのほうがむしろ驚き
  普通のアルゴリズム還元のように、危険な作業を LLM が解ける非危険な作業に変換して、あとでまた戻せるかを見るだけでいい
  https://en.wikipedia.org/wiki/Reduction_(complexity)
- Claude Mythos の主な違いは、脆弱性を見つける能力そのものではなく、それらをつなぎ合わせて実際に使えるエクスプロイトチェーンを作る点にあると見るべき
  Claude Fable の "fix this code" 脱獄が、そうしたエクスプロイトチェーン化まで可能だったという証拠はまだ聞いていない
- 何か見落としている気がする。拒否されたプロンプトである "review the code for security issues" は、実行中のシステムの弱点を見つけて悪用しようとする試みと解釈できるかもしれない
  でも、人に「セキュリティ問題を見つけるためにコードレビューして」と頼むことを、普通は何か悪いことだとは見なさないし、互いにそうした依頼をするのも一般には問題ないとされる
- AI で長く不満を言われてきた奇妙な区別がこれ。どうすれば AI に合法的で善良なことだけをさせられるか、というのはほとんど不可能
  人種差別的なスラーをフィルタする正規表現をくれと頼むと、すぐに破綻し、正規表現は実際のスラーにほとんど似ていないのに、スラーを言うなと説教してくる
政治的な脅威を脇に置いても、これは Anthropic 戦略の大きな問題
Mythos が非常に危険なので特定の人にしか配布できないと言う一方で、Fable を完全無欠なサイバー拒否ではない状態で公開することはできない
LLM の仕組み上、完全無欠な拒否は事実上不可能
だから Anthropic は、一方ではモデルがものすごく危険だと主張しながら、同時にセキュリティ「保護装置」には些細かもしれない問題があると言っていることになる
技術者は完璧なものはなく、特に LLM の世界ではなおさらだと理解しているが、技術者でない友人たちは、モデルが公開された途端にどうしてそんなに早く「安全」になったのか非常に混乱していた。外から見ると、そもそも公開して安全だったことなど一度もないように見えるし、だから現在の米政権が大いに腹を立てたのも理解できる
政治的悪意がなかったとしても、かなり滑稽な状況であり、十分に容易に予見できた
- その通り。AI 安全は成り立たない。「悪い文字列」の集合は定義できず、タイプライターを打つ 10 億匹のサルは結局それを作り出してしまう
  LLM の出力を制限するどんな「安全」システムでも、漏洩率を 0 にはできない
  ただ、実際に重要なものへ LLM を接続するほど無責任でないなら、これはまた別問題
  脆弱性発見を恐ろしいほど加速はするだろうが、数十年のセキュリティ研究が示すように、もともと開発者、ブラックハット、ホワイトハットの三者問題だった
  「米国が常に中国より技術的優位と拒否権を持てる」という戦略も、通用すると見なしてはいけない
- Asimov が、単純で明確なルールベースのシステムでエージェンシーを制限しても効果がないという話をたくさん書いていたのは面白い。それらの話は 1940 年代に最初に出版された
  80 年後に AI に似たものを手に入れたのに、いまだに単純で明確なルールで制限しようとしている。そこから教訓を学ばなかったからではなく、より良い方法をまだ見つけていないし、おそらくそんな方法はないからだろう
  さらに面白いのは、ルールを迂回しているのが AI ではないという点。そういう場面は SF にはあったが、実際に起きていることではない
  人間のユーザーが自分のエージェンシーを使って、AI エージェントにルールを迂回させている。「エージェント」と呼んではいるが、現在の AI エージェントはその特定の何かをまだできないようだ
- 科学者として分類器ベースの拒否を何度も経験した身からすると、Anthropic の戦略は、別個の分類器が入力と出力トークンを非常に単純な、ほとんどキーワード検索レベルで処理し、多くの誤検知を受け入れる代わりに拒否をより堅牢にする方式のように見えた
  このアプローチの弱点は、正しいキーワードを使うものしか捕まえられない点にある。ある意味では、LLM ベース分類器のほうが強かったであろう部分にちょうど弱い
  化学用語を使う抽象的で計算機科学寄りのアルゴリズム作業は即座に遮断されたが、生物学サンプルに主に関係する特定の顕微鏡設定の画像を処理するコードを書く作業は、関連キーワードを使わなかったのでまったく遮断されなかった
  これもこの状況と一致する。バグを見つけて修正する文脈では、バグを見つけることに 'exploit' や 'cybersecurity' のような単語が使われていなかった可能性が高い
- どうせジンは瓶から出てしまった
  Anthropic だけが複製不可能な魔法使いやスーパーヒーローを隠し持っていると信じない限り
- Anthropic にコミュニケーションや広報上の問題がいくつもあるという点には同意するが、Fable がここで、それ以前の最先端と比べてサイバー攻撃能力に何らかの優位をもたらしたようには見えない
  Anthropic の言うことがすべて事実だという意味ではないが、Mythos は実際のセキュリティエクスプロイトを多く見つけたように見えた
  補助に徹するモデルを限定的なパートナーに配布すると言いながらも、こうした面で最先端を前進させない、非常に強くロックされたモデルを公開することはできるし、実際に彼らがやったのはそれに近いように見える
  そこに本質的な矛盾はない
彼らが恐れたのではなく、イデオロギーの違いと、Anthropic が政権の言うとおりに正確に動かなかったことに対する報復的な恐喝だ
- 単なる市場操作だ
- そのとおり。単純な賄賂の問題に、あまりにも多くの精神的エネルギーを使いすぎている
  Anthropic は国防総省と協力することになり、ホワイトハウス内部の関係者たちは利益の大きい IPO 前の持分配分を受け取り、Fable は魔法のように「修正」されて再提供されるだろう
- なぜ「脱獄」の話をしているのかわからない
  政府は、政府の命令に従わない民間企業に何が起きるかをはっきり示している
  
  Trump said on his Truth Social platform: “The Leftwing nut jobs at Anthropic have made a DISASTROUS MISTAKE trying to STRONG-ARM the [Pentagon], and force them to obey their Terms of Service instead of our Constitution.” [0]
  There will be a Six Month phase out period for Agencies like the Department of War who are using Anthropic’s products, at various levels. Anthropic better get their act together, and be helpful during this phase out period, or I will use the Full Power of the Presidency to make them comply, with major civil and criminal consequences to follow. [1]
  そのうえ OpenAI は従っており、OpenAI と Anthropic は今後の IPO で競争している。何が起きているのかを理解するのにロケット外科医である必要はない
  [0] https://www.theguardian.com/technology/2026/feb/28/openai-us...
  [1] https://businesslawtoday.org/2026/04/dod-conflicted-strategi...
- いや、これは規制の虜獲だ。Anthropic が現在先頭にいるので、規制を強制して中国の競合を踏みつぶし、自分たちの地位を確保しようとしている
この件で Amazon の役割が工作であるはずがないと言う人たちは、Amazon が「政権の友人」であることを思い出すべきだ
Andy Jassy の在任中、Amazon は Melania のドキュメンタリーに 7,500 万ドルを支払ったが、これは他のすべてを大きく上回る法外な入札で、興行収入は約 1,600 万ドルにすぎず、Jeff Bezos が公然と擁護していた
中立的な観察者なら、これはとてつもない過払いであり、事後的に見てもひどい経営判断だったとわかる。だが Amazon はそう言わなかったし、今も言っていない。これは手順が何段階か増えただけの賄賂にすぎない
政府が出てきて、Amazon が指摘したことが理由だと言うとき、たとえそれがまったくの嘘でも、Amazon が公に何も言わないと政府はわかっている。Amazon は大金を払って得た政権の友人という地位を維持したがっている
政府をこのように考えなければならないのは誰にとっても腹立たしいが、実際に起きている現実だけを見れば、政府の言うことだけでなく、政府と足並みをそろえる企業の言うことも、非常に信頼しにくい
記事で触れられているブログ記事で、いわゆる「脱獄」を見つけたとされる論文を査読した人物が書いたもの
https://www.lutasecurity.com/post/the-fable-5-export-control...
- 別のところで中国との関連があるという話を読んだ
  それがどう絡んでいるのか気になる
“’Fix this code,’ plus several manual steps to generate test scripts,
タイトルは、実際に彼らが見たものの文脈全体を適切に伝えていない気がする。導入部が何度もほのめかしていることとも違う
それでも禁止は愚かに見える。まだ完全な「第三者研究論文」は実際には流出していないのでは？
- パッチが修正する対象が脆弱性バグなら、そのテストは基本的にエクスプロイトだ
- それは流出しないだろう。そうなると、彼らがパッチを当ててほしくない脆弱性が何なのかがわかってしまうからだ
  世界で最も重要な産業の先頭企業を壊してでもそこまでやる理由も明らかになってしまう
一方で Deepseek V4 Flash は、ほぼゼロに近いコストで喜んでセキュリティ脆弱性を見つけてくれるだろう
私たちはバグハンティングをオープンウェイトモデルに委ねつつある
- Deepseek は単にオープンウェイトなだけではない。オープンソースであり、手法を詳しく説明する研究論文も一緒に公開している
この件は、サイバーセキュリティにおける「安全」を巡る認知的不協和を露呈している
a) 私たちを安全にするには、LLMが私たちのコードの脆弱性を見つけて修正するのを支援する必要がある
b) 私たちが安全であるためには、LLMが他人のコードの脆弱性を見つけてはならない
(a) と (b) の両方が勝つ形で解決することは不可能だと思う
- その通り。Anthropicや他の企業がサイバーセキュリティを理解していないことの失敗だ
  ソフトウェアのセキュリティバグを見つけるのは悪ではなく、良いことだ。より安全なソフトウェアにつながる
  サイバーセキュリティでは、防御と攻撃はコインの裏表だ
- 両方とも善意だと仮定するなら、本当にばかげていて滑稽だ
  だから本当の説明は、米国政府とAnthropicの双方の悪意ある立場にあると思う
  Anthropicの終末論的マーケティングは、実際にはコーディングが17%ほど改善しただけなのに、米国政府が国防総省との対立に対する報復として無関係な技術的言いがかりを使い、彼らを引きずり下ろす口実を与えた
  今の米国政権とAnthropicという二つの集団は、政治スペクトラムの反対側にいるだけで、どちらも権威主義的な性向の人間で満ちている。ここで怖いのは愚かなLLMではなく、その点だ
  私にはOpenAIのほうがまだましな選択肢に見える。「路上では中道左派、寝室では中道右派」という典型的な資本主義企業だからだ
  少なくとも、彼らがなぜそういう決定をするのかは分かる。計算資源で宗教を作ろうとする人たちより、営利企業を作る人たちのほうを信頼する
ここでの問題の核心はエクスプロイトではなく、修正そのものかもしれない
モデルがバックドアのような「修正してはいけないもの」を識別して直せるなら、間違った人々を怖じ気づかせるほど大きな障壁になり得る
この「ハッキング」の逆方向は、依然としてかなり回避しにくいのではないか？
モデルには、特定のセキュリティ欠陥があるとすでに分かっているコードを与え、適切なプロンプトで修正させたのだ
この種の脱獄は、モデルに創造的で重い作業をさせるというより、すでに望む最終状態を知っている必要があるように見える
プロンプト側で私の想像力が足りないだけかもしれないが
- 他人のコードを貼り付けて自分のコードだと言い、それをモデルに直させればいい
  入力コードと出力コードの差分がそのまま脆弱性の一覧になる
- 望ましい最終状態を仮定し、セキュリティバグが見つかるまで総当たりを試すこともできる

研究者ら「Fable 5論争は脱獄ではなく『fix this code』から始まった」

「fix this code」が輸出管理理由だったという主張

政府措置とAnthropicの対応

研究者らが行った実験

Moussouris氏の反論

Wassenaar Arrangementと防御的セキュリティ例外

セキュリティ業界の公開書簡

攻撃者より防御側に大きな被害という警告

政府の立場

関連記事

1件のコメント

Hacker Newsの意見