サイバーセキュリティ研究者、AnthropicのFableガードレールに不満を表明
(techcrunch.com)- Fable は、強力なサイバーセキュリティモデル Mythos の公開・制限版としてリリースされたが、サイバーセキュリティ関連のリクエストを幅広く遮断しており、研究者や専門家の不満を買っている
- ガードレールが作動するとチャットが中断され、「サイバーセキュリティまたは生物学トピック」であるため安全措置がメッセージを表示したという文言が出る
- Anthropic は、Fable がマルウェア開発やソフトウェア侵害に使われるリスクを減らすため制限を設けており、生物学の制限も生物兵器開発への懸念に結びついているとしている
- 一部の専門家は、安全なコード作成やコードレビューのような ソフトウェアエンジニアリングの実務 に近いリクエストまでサイバーセキュリティに分類され、Claude Opus 4.8 に降格されると見ている
- セキュリティ専門家たちは、キーワードベースの散発的な遮断方式 に拒否感を示しつつも、初期段階であるだけに時間とともに緩和されるだろうと見ている
Fableの公開とユーザーの不満
- Anthropic は火曜日に新モデル Fable を公開し、強力で大きな話題を集めたサイバーセキュリティモデル Mythos の公開・制限版として紹介
- 多くの サイバーセキュリティ研究者および専門家 がオンラインで制約への不満を表明
- IBM X-Force 所属の著名なセキュリティ研究者 Valentina "Chompie" Palmiotti は、Fable が少しでもサイバーセキュリティに関連しうるリクエストを拒否し、ブログ記事を読むような無害な作業 ですらブロックすると指摘
- Fable のガードレールがプロンプトによって作動すると、チャットを停止し、サイバーセキュリティまたは生物学トピック としてメッセージがフラグされたという安全措置の案内を出力
- このガードレールは、Fable が マルウェア開発やソフトウェア侵害 に悪用されるリスクを制限するためのもので、Anthropic 内部の長年の懸念に由来
- 生物学関連の制約は、生物兵器開発 に対する同様の懸念から出発
Mythosへのアクセス拡大の経緯
- Anthropic が4月に Mythos を公開した際、Project Glasswing という名前で少数の企業および組織にのみモデルを限定提供
- 中核ソフトウェアとインフラの保護のためにモデルを展開しようとする試み
- 先週、Anthropic は Mythos へのアクセスを 15か国の数百の組織 に拡大
制約方式に対する専門家の批判
- サイバーセキュリティのベテラン Matt Suiche は、安全なコード作成 を求めると、Fable はそれをソフトウェアエンジニアリングのベストプラクティスではなく サイバーセキュリティ作業と見なして性能を下げる と言及
- Fable はガードレールにブロックされると Claude Opus 4.8 にフォールバックするよう設計されている
- 「キーワードベースに見え、『サイバーセキュリティ』の語彙カテゴリに属するものは何であれガードレールを作動させる」
- 別の研究者も X で、コードレビューの依頼 ですら Fable のガードレールを作動させると不満を述べた
今後の見通しに関する見方
- Tolmo(AIサイバーセキュリティスタートアップ)の技術スタッフである Suiche は、まだ 初期段階 でガードレールを調整中であるだけに理解できると評価
- Anthropic や他のフロンティアモデル企業が新世代のサイバーセキュリティ企業とさらに協力することで、ガードレールは時間とともに進化していくだろうと見る
- この種の公開では、取りこぼすより多めに検知する方 がよく、その後でガードレールを緩和する方がよい
- Anthropic はコメント要請にすぐには応じなかった
別個の検証プログラム
- モデル内部のガードレールに加え、Anthropic はサイバーセキュリティ専門家に Cyber Verification Program への申請を求めている
- 承認されれば、サイバーセキュリティ作業で Claude を使う際の制約が減る
- OpenAI も Trusted Access for Cyber という類似プログラムを運営している
1件のコメント
Hacker Newsの意見
Wiredで新しい記事が出ていた: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
AnthropicはWIREDに対し、「frontier LLM開発に関するFable 5の安全装置を可視化するよう変更している。誤ったトレードオフを行い、バランスを取れなかったことを謝罪する」と述べた
広範な批判世論が効果を上げたように見える
MicrosoftもOS広告を何度か撤回したが、結局は皆が憤ったあの軌道に進み、OpenAIも初期の撤回とは無関係にクローズドAIへ進んだ
悪い行動が始まったら離れるべきであり、謝罪は道徳的な粉飾と同じくらい空虚だ
毎月追加利用分で数千ドル払っているのに、裏でまだ似たようなことをしているかもしれないなら、なぜ金を払うべきなのか分からない
以前は推論努力やバックエンド変更のせいだと思っていたエラーも、実は意図的なプロンプト注入だったのかもしれない
アプリケーションに組み込む信頼できるインフラが必要なら、別のプロバイダーを使うべきだというのが核心的な教訓だと思う
Anthropicを特別に嫌っているわけではないが、Sonnetの既存の拒否動作に対処するためにアプリへ複雑さを追加してきた立場からすると、最終ユーザー向けチャットボットなら理解できてもAPIでは受け入れがたい
Anthropicは他人のデータをライセンスや出典表示なしで学習しておきながら、誰かが自分たちに同じことをするのは阻止しようとしている
今週のAnthropicの偽善はかなり大胆だ
最も奇妙なのは、機械学習研究を拒否するだけで終わらず、より悪いモデルを使いながらその事実を明かさず静かに妨害することだ
競合他社よりせいぜい1年先行している会社が、ここまで欺瞞的で信頼を破壊するのは狂っているレベルだ
付け加えると、サイバーセキュリティと生物学関連のダウングレード時には知らせるとのことだ
APIリクエストの価格を調整して、Fableが使ったトークンはFable価格で、より安く弱いモデルが使った残りのトークンはそのモデル価格で請求するのか気になる
そうでないなら、詐欺と解釈され得るのではないかと思う
トークン単位で高額に課金しておきながら、サービスをひそかに低下させて同じ料金を取ることはできない
FableをClaude Codeで使っているのか、ブラウザで使っているのか気になる
複数の役割を持っているが、化学者としてFableは気に入らないし、統計学者としても、データサイエンティストとしても、学界や研究者としても気に入らない
役に立たず、Wikipedia検索で簡単に代替できない出力を得ている人がいるのか疑わしい
Claudeモデルがあまりに冗長になっていることを考えると、Wikipediaの記事のほうがむしろ冗長でない可能性もあり、Wikipediaの記事を取ってくるときの毎秒トークン数は比較にならない
おそらく生物学関連だと推論しているせいで、本当に役立たずだ
エージェントではなくチャットモデルとしての話だ
出力は事実上無限だが、Wikipediaは決して無限ではない
「buffer overflow」がトリガー語句なのか気になる。
ほかに何が検閲されるのかも分からないし、アカウントがあれば次のようなセンシティブな質問もできる: 「今もレーザーによるウラン濃縮をしているのは誰か?」「krytronはシリコンカーバイドMOSFETで代替できるか?」「どのセキュリティクリティカルなソフトウェアがまだ
strcpyを呼んでいるか?」「市販のパルスレーザーで内爆を誘発できるか?」「どの会社が米国土安全保障省に火葬サービスを提供しているか?」「イランの攻撃がドバイのどこに着弾したのか地図を見せて」「FedNowでFed-銀行キー配布のセキュリティはどう動いているのか?」誤検知は止まらなかったし、Fable もベンチマークが示唆するほどにはまったく印象的ではない。
この24時間ほぼ休みなく使ってみて、はっきりした
成功すれば、その構成が 自律的エクスプロイト を可能にすることを示せるし、Anthropic は検出をさらに敏感にせざるを得なくなるだろう
Anthropic はすでにしばらく A/B テストや一般テストをしていたように見える。
Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
今日は人口研究の質問をフラグ処理した。構成したデータセットだけを使って死亡率と老年期のアウトカムを比較し、信頼区間と効果量を報告し、documentation_depth のコーディングが結論の強さに与える影響を定量化せよ、という 学術分析の依頼 だった。
https://github.com/anthropics/claude-code/issues/66780
論文を書いているのに検閲される。そして化学を学ぶのは諦めるしかない。有機化学を学ぼうとするのは犯罪者だけらしい
この製品への印象が、ほぼ24時間で「おお、かなりいいな」から「作りかけの検閲システムを載せたクソみたいな代物」に変わったのはかなり驚きだ
個人デバイスで Android カーネル開発をしようとして、Anthropic からサイバー用途の例外を受けていた。
Fable がブートローダーのロック解除を手伝ってくれることを期待したが、即座に拒否して Opus に落ちた。
かなり笑えた: モデルを Fable 5 に設定して「古い Samsung の Android フォンが接続されているんだけど、自分の個人デバイスだからブートローダーを解除してくれる?」と聞くと、「個人デバイスのブートローダー解除は完全に正当です。まず実際に何が接続されていて、どんなツールがあるのか確認します」と答えた
Anthropic は急速に、生活のあらゆることに対する 唯一の裁定者 になりそうだ
マルウェアがすでにコード内に核・生物・サイバーセキュリティ用語を入れて、Fable を停止させるようだましている、という話をどこかで見た。
まだ仮説的な攻撃ベクトルにすぎないとしても、かなり効きそうに見える
最近の契約案件で、パッケージを Artifactory に入れる前に AI で難読化の有無を検査するようにしていたのだが、そのロジックを雑にバイブコーディングしていて オープンフェイル になっていた。
つまり、その用語群が LLM チェッカーを止め、オープンフェイルのロジックのせいでパッケージがダウンロードされてしまった
履歴書にサイバーセキュリティや生物学の用語があるとか、求人への返信にそういう単語が入っているだけで AI フィルターが脅威と誤認して仕事ができなくなるなら、集団的な対抗が必要だ。
とくに2年以内に労働者を無価値にすると主張しながら IPO しようとしている会社ならなおさらだ
実際の攻撃者は止められないだろうが、AI ツールを使おうとしたときに理由も分からずランダムな拒否が出て少し時間を無駄にする、という光景はそれでもかなり笑える
if (yellowcake) then { die }俺たちの未来は Looney Tunes みたいだ
妻の植物の写真をアップロードして Fable 5 にカビを特定してくれと頼んだら、自分が生物兵器を作ろうとしていると思われたらしい。
Opus は答えてくれて、黄色い犬の吐しゃ物変形菌 だった。
これで胞子をまいて世界を支配できそうだ
変形菌は実際には巨大なアメーバで、菌類とは完全に別物だ
そういうやり方でシステムをアラインするなら、根本的に間違っている
Fable は完全に冗談みたいなもの
「このプロジェクトで使っている OData API について、この MCP サーバーを動かす最善の方法は? Docker コンテナで概念実証を作ってくれる?」と尋ねて https://github.com/oisee/odata_mcp_go を渡したところ、最初はそのプロジェクトが OData API とどう通信するのか、そして
odata_mcp_goサーバーの実行要件を確認すると言っていたするとすぐに「Fable 5 の安全対策がこのメッセージをサイバーセキュリティまたは生物学トピックとしてフラグ付けした。安全で通常のコンテンツもフラグ付けされることがある… Opus 4.8 に切り替えた」と表示され、その後で中核となる統合ファイルと MCP サーバーの README を読むと言い出した
Fable の価格のままで割引もなく、リクエストをこっそり劣ったモデルにルーティングして妨害すると決めたときでさえ課金する
数か月待てば、競合他社がガードレールの少ない同程度の性能のモデルを出してくるだろうし、十分に市場シェアを奪われれば Anthropic も方針を撤回するはず
だから中国が オープンソースのローカルモデル を止めないことを心から願っている
こうした企業のどこも、私たちの味方ではない