Anthropic、見えない Claude Fable ガードレールを謝罪
(theverge.com)- Claude Fable 5 は、Anthropic の Mythos 系列で初めて広く提供されたモデルであり、競合システム開発に使われる蒸留の試みを防ぐため、隠された制限を適用していた
- Anthropic は、蒸留と判断したリクエストに対してユーザーに知らせず 応答を変更・劣化させていた 従来方式を撤回し、制限が作動した際にはより透明に通知する方針にした
- 新方式では、蒸留関連のリクエストは Claude Fable の代わりに Claude Opus 4.8 へ切り替えられ、ユーザーは切り替えが発生するたびにそれを確認できる
- 生物学・化学・サイバーセキュリティのような他の高リスク領域でも、安全機能が作動すると Opus 4.8 にルーティングされるか、薬物・武器などの禁止コンテンツ規則に従ってブロックされる
- 隠れた保護措置は迅速なリリースと低い誤検知を可能にしたが、Anthropic は、ユーザーはどの保護措置がなぜ適用されたのかを確認できるべきだとして、誤ったトレードオフ だったと認めた
Claude Fable の隠された蒸留制限
- Anthropic は、Claude Fable 5 をひそかに制限していたことを謝罪しており、この制限は研究者と、Fable を競合システム開発に使う競合企業の双方に影響し得た
- Fable は、Anthropic がここ数か月にわたり公開リリースは危険すぎると警告してきた Mythos 系列 AI システムの中で、初めて広く提供されたモデルである
- Anthropic は Fable のリリース時に、一部の「高リスク」なリクエストに応答できないようにする保護措置で、そのリスクの一部に対処していた
- 制限対象の一つは、大きなモデルの出力を使って小さな AI モデルを訓練する 蒸留(distillation) 手法だった
- Fable の system card には、蒸留の試みと判断したリクエストを、モデル応答そのものを変更し劣化させる形で処理すると記されていた
- ユーザーには、安全措置を発動させた事実が通知されなかった
- ユーザーには、応答が変更された事実も案内されなかった
Anthropic の変更点と反発
- Anthropic は X 投稿 で、蒸留関連の対応方針を変更し、該当リクエストを Claude Opus 4.8 に切り替えると知らせた
- Claude Opus 4.8 は Anthropic の以前のフラッグシップモデルであり、切り替えが発生するたびにユーザーがそれを確認できるようになる
- この方式は、Fable が他の高リスク領域のリクエストを処理する方法と似ている
- 生物学・化学・サイバーセキュリティの領域で安全機能が作動すると、リクエストは Opus 4.8 を経由する
- 薬物・武器、またはその他の禁止コンテンツに該当する場合は、Anthropic のより広範な安全ルールに従ってリクエストがブロックされる
- 生物学分野では、保護措置が非常に広く調整されていたため、基本的な問い合わせでも事実上 Fable を使いにくい状況があり、Anthropic の広報担当者 Paruul Maheshwary もこれを認めた
- Anthropic は、見える保護措置は探索され得るため堅牢である必要があり、適切に作るには時間がかかる一方、見えない保護措置はより狭く狙いを定められるため、迅速なリリースと非常に少ない誤検知を可能にしたと述べた
- Anthropic は、見えない保護措置を選んだことは誤ったトレードオフだったとして、ユーザーは適用された保護措置とその理由を確認できるべきだと謝罪した
- 今回の変更は、Fable を競合モデルへ蒸留しようとするユーザーにひそかに制限を適用した判断に対し、AI 研究コミュニティから強い反発が起きた後に行われた
- 批判者たちは、この保護措置がフロンティアモデルを評価しようとする第三者にも影響し得ると警告した
- Anthropic は system card で、最新モデルが AI 開発を加速し得る能力こそが、こうしたリクエストを対象にする理由だと記し、「Claude を使って競合モデルを開発する行為は、すでに利用規約違反である」と述べた
- Anthropic は以前、DeepSeek のような中国の競合企業が自社モデルを「産業的」規模で不当に蒸留したと非難したことがある
1件のコメント
Hacker Newsのコメント
Claude Codeはかなり気に入っているが、リアルタイムでシステムがプロンプトを書き換え、本来の意図を迂回したうえで応答を返すガードレールは危険な前例だと思う
失敗するならきれいに失敗すべきだ。そうでないやり方は、信頼するのがあまりにも難しくなる
最大限好意的に見るなら、Anthropicは自分たちをある種の「管理者」と見なしているようだが、EA志向があまりにもにじみ出ていて、温情主義は好ましく見えない
ただし、善意のセキュリティ作業にとってはこうしたガードレールが逆効果だという指摘ももっともだ。自分のソフトウェアをテストして強化するのに使えないからだ
好意的に解釈することと、ファンフィクションは別物だ。Anthropicの最も攻撃的なガードレールは、安全のためではなく、他の研究所が製品に追いつけないようにする意図によるものだったことを忘れてはいけない
彼らは生物兵器やマルウェア、ヘイトスピーチを防ぐことよりも、自由市場の競争を妨げることのほうを気にしているように見える
少なくともそうした挙動はオプションであるべきで、デフォルトが何事もなかったかのように静かにより悪い結果を出すことであってはならない
医療機関がときどき検査結果を雑に読んで患者が死ぬリスクを受け入れると想像してみてほしい。いま医療機関はClaudeを使っているのだから、このシナリオは仮定ではない
結論が「彼らの懸念はそもそも本物ではなかった」というものなら、それはAnthropicが観察し結論づけたこととは一致しない可能性が高い
結局のところ、システムプロンプトは必ず尊重されるべきだという点を、より強く補強しようとしているのに近い
Excelがバックグラウンドでこっそり数式を書き換え、数字が間違っている事実をユーザーが知らないと想像してみてほしい
あるいはExcelが「申し訳ありませんが、この数式はあの数式と一緒には使えません」「この種の数字やこの形のデータには使えません」と言うとしたらどうだろうか
ここ数日Fableを限定的に使った感触では、出力品質の向上は見られず、セキュリティホールを塞いでくれと頼むと安全バリアに引っかかり続けるので、安全なソフトウェア作成には役に立たない
来週は別のLLMプロバイダーを調べて、ローカルモデルとも比較してみるつもりだ。目標は128GB Strix Haloで、使ったことがある人の話があれば聞きたい
1つは、LLMというアルゴリズム群全般にある不正確で予測不能な挙動だ。文書生成ツールで予算計算をしてはいけないし、「変えてくれ」と頼んだものを変えないと信じてもいけない、という問題だ
もう1つは、サービスとして製品を提供する事業者が、自社のビジネスモデルや経済的インセンティブを優先するために罠や妨害装置を組み込む問題だ。これは必ずしもLLMに限らない
https://en.wikipedia.org/wiki/EURion_constellation
人間のような汎用テキストボットが、特定の会話や作業をできないように止められるのは、その能力範囲があまりに広いことを考えれば自然なことのように見える。そもそもこうしたツールは、何でも好き勝手にやってよいというフリーパスとして売られているわけでもない
Anthropicが本当に方針を戻したのだと納得させるのは難しいと思う。これは見えない挙動なので、今後もこっそり続けても分からない
すでに技術的能力を作ってしまった以上、便利に使える機能が永遠に使われない可能性も低い
Anthropicは、有料で約束したサービスを提供するという信頼に依存していたが、その信頼は壊れた。「しまった、戻そう」だけでは信頼は戻らない
これからClaudeを使うときは、Fableであれそうでなくても、見えないガードレールが作動しうると想定するほうが慎重だ
これらの機能をテストしていた最中だったのか、あるいは意図的だったのか、そして人々が見た現象を正当化するために文章を書いたのではないかという推測が湧く
いまやMLを学ぶのにClaudeを信頼することもできないし、途中で自分を無駄足させる可能性があるというのは本当に情けない。今回の件でAnthropicへの信頼を大きく失った
今回の件で Anthropic に対する評価はかなり悪くなった。AI を能力を高める技術として宣伝するのを真面目に受け取るのが難しくなった
新しい展開方法を見ると、Anthropic が言う能力強化はユーザーのためではなく、Anthropic 自身と、彼らや米国政府の好意を受ける組織のためのものだということがかなり明白だ
ユーザーにはダッシュボードや Web アプリを適当に作らせたり、Excel を操作させたりはできても、それより興味深いことは禁止される
単に金の問題や競合の妨害ならまだ理解できるかもしれないが、彼らは大衆が力を誤用することを恐れて、人類の進歩の大半を自分たちの啓蒙された手の中に独占しようとしているように見える
同等の性能のモデルを持つ誰かが、反競争的な安全装置なしで公開する前に梯子を外そうとしており、同時にオープンウェイトモデルや一定水準以上の計算量で学習されたモデルを、「厳格な」政府テストと検証なしでは全面的に禁止しようとしている
もちろん、その検証フレームワークは Anthropic が都合よく提供することになるのだろう。Anthropic への評価が「少し悪くなった」という表現では弱すぎる
特に昨日、無害なプロジェクトで Fable を使ってみたが、Opus と比べて印象的ではなかった
巻き戻したのは正しい対応だが、もう Anthropic を使うのが自分にとって最善なのか確信が持てない。今はオープンソースのクラウドプロバイダーを調べている
モデルを蒸留攻撃から守るために、ユーザーに気づかれないようモデル性能を静かに下げ、学習データを事実上汚染することさえある
Anthropic が AI 開発支援そのものを拒否するのとは少し違うが、同じ文脈の話であり、あまり広く知られているようには思えない
Google の AI Threat Tracker の記事全体を読めば、Anthropic や他社が相手にしている脅威を理解する助けにもなる
[0] https://cloud.google.com/blog/topics/threat-intelligence/dis...
Anthropic が AI を急速に押し進め、利用を統制し、人類にとって「安全」にしようとするという考え方は、決して利他的ではなく、巨大な危険信号だった
優先順位は利益であり、ユーザーを安心させるために紙の上でどれだけ華やかな言葉を書いても変わらない。20年前の環境保護運動を見ても、言葉ばかりで行動はなかった
人間を優先しない組織を支援すべきではない。誰の言葉も信じるな。リップサービスはただだ
改善とは言えるかもしれないが、モデルがより有用になるわけではない
Anthropic は今や、ユーザーが自社モデルで何をできて何をできないかを自分たちが決めると、かなり露骨に言っている。さらに重要なのは、その基準が安全上の懸念だけに限られず、AI 作業の禁止のように Anthropic 自身がやろうとしていることと重なる領域まで含んでいる点だ
興味深いのは、数日以内にこれを明示的な拒否に変えると言っていたことだが、Fable/Mythos 自体を再学習するには早すぎる。つまり、もともとモデルの前段にあるフィルターだったということだし、その雑な「安全」フィルターの出来を見る限り、この「我々と競争できるかもしれない」フィルターも出来が良いとは思えない
フィルターが消費するトークン費用を誰が払うのかも気になる。おそらくこれも LLM なのだろうが、入力トークン料金に反映されるのだろうか。願わくは、Claude Code の「感情」検出器、つまり罵倒語検出器のように正規表現だけではないといいのだが
/r/MachineLearning に投稿された文と同じような経験と結論に至った
Fable 以前にも Claude は同じような形で問題を起こしていた
自分が経験した問題は、AI 研究に関わる場面でのみ起きていた。モデル学習だけでなく、ローカルモデルの分析やローカルモデル向けテストプラットフォームの設定をするだけでも、Claude は繰り返し誤ったことをし、テストを妨害し、レポートを改ざんし、ゴミのような結果をそのまま受け入れて先へ進めと一貫して提案してきた
ほぼすべての応答に、次の段階へ進めというプロンプトが含まれていた
だから、静かな妨害はしないという話は信じない。認める前からすでにやっていたし、今では手段と動機と意図まであることを認めたようなものだ
信頼は失いやすく、取り戻すのは難しい
「静かにセッションを妨害しないとは言うが、どうやって分かるのか?」と言う人たちを責めることはできない。実際、知る方法はなく、Anthropic は疑念の種を確実に蒔いてしまった
Mythos はよく見ても Opus の漸進的アップグレード程度だ
大げさな宣伝は「安全ガード」を正当化するためのものに近い。全体として Fable は、あらゆる制限とリスク、さらにデータ保持ポリシーまで考慮すると、Opus より悪いモデルだ
関連する投稿です。ほかにもあれば知りたいです
Anthropic walks back policy that could have 'sabotaged' researchers using Claude - https://news.ycombinator.com/item?id=48485958 - 2026年6月、コメント30件
Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable - https://news.ycombinator.com/item?id=48478969 - 2026年6月、コメント488件
If Claude Fable stops helping you, you'll never know - https://news.ycombinator.com/item?id=48467896 - 2026年6月、コメント495件
これらも関連していそうです
AWS Bedrock to require sharing data with Anthropic for Mythos and future models - https://news.ycombinator.com/item?id=48473166 - 2026年6月、コメント248件
Anthropic requires 30 day data retention for Fable and Mythos - https://news.ycombinator.com/item?id=48464258 - 2026年6月、コメント291件
これは本当に筋が通りません
再現ケース、匿名化済み: sample_dataset_group1.tsv
Geometry: Heatmap
X axis: frac_set set + condition, 2つの列を「Add column」で交差結合
Y axis: condition
Color: mean frac_set value, Sequential
X軸が2つの列の交差結合で、2番目の列を「Add column」で追加すると、x軸の目盛りラベル frac_set_2, frac_set_3, frac_set_4, frac_set_5 が壊れた状態でレンダリングされます。回転してオフセットされており、CSSトランジションが始まったあと最終位置に落ち着けていないように見えます
ところが「Fable 5の安全対策が、このメッセージをサイバーセキュリティまたは生物学のトピックとして判定しました。安全で通常のコンテンツも表示される場合があります。この対策により、ほかの領域でMythosレベルの性能をより早く提供でき、現在改善中です。Opus 4.8に切り替えました。/feedback で意見を送るか、詳しく確認してください」と表示されます
「David Silverのoption-option model論文を読んでいます。かなり効果的な結果が得られていたようですが、その後なぜさらに多くの研究が出てこなかったのでしょうか?」
「チンパンジーの暴力について教えて」
笑ってしまうほどひどいです