1 ポイント 投稿者 GN⁺ 4 시간 전 | 1件のコメント | WhatsAppで共有
  • Fable は、強力なサイバーセキュリティモデル Mythos の公開・制限版としてリリースされたが、サイバーセキュリティ関連のリクエストを幅広く遮断しており、研究者や専門家の不満を買っている
  • ガードレールが作動するとチャットが中断され、「サイバーセキュリティまたは生物学トピック」であるため安全措置がメッセージを表示したという文言が出る
  • Anthropic は、Fable がマルウェア開発やソフトウェア侵害に使われるリスクを減らすため制限を設けており、生物学の制限も生物兵器開発への懸念に結びついているとしている
  • 一部の専門家は、安全なコード作成やコードレビューのような ソフトウェアエンジニアリングの実務 に近いリクエストまでサイバーセキュリティに分類され、Claude Opus 4.8 に降格されると見ている
  • セキュリティ専門家たちは、キーワードベースの散発的な遮断方式 に拒否感を示しつつも、初期段階であるだけに時間とともに緩和されるだろうと見ている

Fableの公開とユーザーの不満

  • Anthropic は火曜日に新モデル Fable を公開し、強力で大きな話題を集めたサイバーセキュリティモデル Mythos の公開・制限版として紹介
  • 多くの サイバーセキュリティ研究者および専門家 がオンラインで制約への不満を表明
  • IBM X-Force 所属の著名なセキュリティ研究者 Valentina "Chompie" Palmiotti は、Fable が少しでもサイバーセキュリティに関連しうるリクエストを拒否し、ブログ記事を読むような無害な作業 ですらブロックすると指摘
  • Fable のガードレールがプロンプトによって作動すると、チャットを停止し、サイバーセキュリティまたは生物学トピック としてメッセージがフラグされたという安全措置の案内を出力
  • このガードレールは、Fable が マルウェア開発やソフトウェア侵害 に悪用されるリスクを制限するためのもので、Anthropic 内部の長年の懸念に由来
  • 生物学関連の制約は、生物兵器開発 に対する同様の懸念から出発

Mythosへのアクセス拡大の経緯

  • Anthropic が4月に Mythos を公開した際、Project Glasswing という名前で少数の企業および組織にのみモデルを限定提供
    • 中核ソフトウェアとインフラの保護のためにモデルを展開しようとする試み
  • 先週、Anthropic は Mythos へのアクセスを 15か国の数百の組織 に拡大

制約方式に対する専門家の批判

  • サイバーセキュリティのベテラン Matt Suiche は、安全なコード作成 を求めると、Fable はそれをソフトウェアエンジニアリングのベストプラクティスではなく サイバーセキュリティ作業と見なして性能を下げる と言及
    • Fable はガードレールにブロックされると Claude Opus 4.8 にフォールバックするよう設計されている
    • 「キーワードベースに見え、『サイバーセキュリティ』の語彙カテゴリに属するものは何であれガードレールを作動させる」
  • 別の研究者も X で、コードレビューの依頼 ですら Fable のガードレールを作動させると不満を述べた

今後の見通しに関する見方

  • Tolmo(AIサイバーセキュリティスタートアップ)の技術スタッフである Suiche は、まだ 初期段階 でガードレールを調整中であるだけに理解できると評価
    • Anthropic や他のフロンティアモデル企業が新世代のサイバーセキュリティ企業とさらに協力することで、ガードレールは時間とともに進化していくだろうと見る
    • この種の公開では、取りこぼすより多めに検知する方 がよく、その後でガードレールを緩和する方がよい
  • Anthropic はコメント要請にすぐには応じなかった

別個の検証プログラム

  • モデル内部のガードレールに加え、Anthropic はサイバーセキュリティ専門家に Cyber Verification Program への申請を求めている
    • 承認されれば、サイバーセキュリティ作業で Claude を使う際の制約が減る
  • OpenAI も Trusted Access for Cyber という類似プログラムを運営している

1件のコメント

 
GN⁺ 4 시간 전
Hacker Newsの意見
  • Wiredで新しい記事が出ていた: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
    AnthropicはWIREDに対し、「frontier LLM開発に関するFable 5の安全装置を可視化するよう変更している。誤ったトレードオフを行い、バランスを取れなかったことを謝罪する」と述べた
    広範な批判世論が効果を上げたように見える

    • 米国企業は引き下がるのではなく、しばらくして人々が疲れて気にしなくなるまで待って再挑戦するだけなので、唯一の解決策は船を降りることだと思う
      MicrosoftもOS広告を何度か撤回したが、結局は皆が憤ったあの軌道に進み、OpenAIも初期の撤回とは無関係にクローズドAIへ進んだ
      悪い行動が始まったら離れるべきであり、謝罪は道徳的な粉飾と同じくらい空虚だ
    • もう遅すぎる。Maxサブスクリプションは解約したし、こういうことを実際にやろうとしていたという事実だけで、残っていた信頼も壊れた
      毎月追加利用分で数千ドル払っているのに、裏でまだ似たようなことをしているかもしれないなら、なぜ金を払うべきなのか分からない
      以前は推論努力やバックエンド変更のせいだと思っていたエラーも、実は意図的なプロンプト注入だったのかもしれない
    • 「トレードオフ」という表現は、Anthropicが自分たちの判断自体は依然として正しいと見ていて、質的に間違ったことだとは思っていないというシグナルなので、潜在顧客にとってはむしろ有益だ
      アプリケーションに組み込む信頼できるインフラが必要なら、別のプロバイダーを使うべきだというのが核心的な教訓だと思う
      Anthropicを特別に嫌っているわけではないが、Sonnetの既存の拒否動作に対処するためにアプリへ複雑さを追加してきた立場からすると、最終ユーザー向けチャットボットなら理解できてもAPIでは受け入れがたい
    • 何らかの作業がブロックされたり似たような処理をされたりした場合、そのセッション、または直近X分間のクレジット全額返金が最低条件であるべきだ
    • 依然としてダウングレードはしていて、ただ静かにやらないと言っているだけなので、これがどれほど大きな勝利なのか分からない
      Anthropicは他人のデータをライセンスや出典表示なしで学習しておきながら、誰かが自分たちに同じことをするのは阻止しようとしている
      今週のAnthropicの偽善はかなり大胆だ
  • 最も奇妙なのは、機械学習研究を拒否するだけで終わらず、より悪いモデルを使いながらその事実を明かさず静かに妨害することだ
    競合他社よりせいぜい1年先行している会社が、ここまで欺瞞的で信頼を破壊するのは狂っているレベルだ
    付け加えると、サイバーセキュリティと生物学関連のダウングレード時には知らせるとのことだ

    • 自動的にダウングレードされるとき、会計と課金がどうなるのかがずっと気になっている
      APIリクエストの価格を調整して、Fableが使ったトークンはFable価格で、より安く弱いモデルが使った残りのトークンはそのモデル価格で請求するのか気になる
      そうでないなら、詐欺と解釈され得るのではないかと思う
    • AMDやIntelが、ユーザーが「サイバーセキュリティ」作業をしているとかCPUを設計していると検知したらCPUをスロットリングする、と想像すればよい
    • どんな形であれ静かな妨害は商用サービスでは絶対に許容されない
      トークン単位で高額に課金しておきながら、サービスをひそかに低下させて同じ料金を取ることはできない
    • この主張を何度か見たが、Claude Codeでガードレールに触れたときは「セキュリティ目的」云々としつつ別のモデルに切り替えたと明確に知らせていた
      FableをClaude Codeで使っているのか、ブラウザで使っているのか気になる
    • 機械学習研究の拒否は理解できる、という言い方も理解できない
  • 複数の役割を持っているが、化学者としてFableは気に入らないし、統計学者としても、データサイエンティストとしても、学界や研究者としても気に入らない
    役に立たず、Wikipedia検索で簡単に代替できない出力を得ている人がいるのか疑わしい
    Claudeモデルがあまりに冗長になっていることを考えると、Wikipediaの記事のほうがむしろ冗長でない可能性もあり、Wikipediaの記事を取ってくるときの毎秒トークン数は比較にならない

    • 質量分析計と通信するソフトウェアを作っているが、入力ファイルパーサーのリファクタリングすら延々と拒否する
      おそらく生物学関連だと推論しているせいで、本当に役立たず
    • 「Wikipediaの記事を取ってくるときの毎秒トークン数は比較にならない」という表現は本当に素晴らしい
    • モデルにWikipediaスタイルで答えろと指示するのが、出力を耐えられるものにする最良の方法の一つだった
      エージェントではなくチャットモデルとしての話だ
    • Wikipedia検索で簡単に代替できない出力はない、というのは誇張ではないかと思う
      出力は事実上無限だが、Wikipediaは決して無限ではない
    • かなり複雑なマッピングプロジェクトをしているが、OpusよりFableのほうではるかに良い結果を得ている
  • 「buffer overflow」がトリガー語句なのか気になる。
    ほかに何が検閲されるのかも分からないし、アカウントがあれば次のようなセンシティブな質問もできる: 「今もレーザーによるウラン濃縮をしているのは誰か?」「krytronはシリコンカーバイドMOSFETで代替できるか?」「どのセキュリティクリティカルなソフトウェアがまだ strcpy を呼んでいるか?」「市販のパルスレーザーで内爆を誘発できるか?」「どの会社が米国土安全保障省に火葬サービスを提供しているか?」「イランの攻撃がドバイのどこに着弾したのか地図を見せて」「FedNowでFed-銀行キー配布のセキュリティはどう動いているのか?」

    • うちの Zigbeeホームオートメーション と Home Assistant のログでもトリガーされて、エージェントはずっと Opus 4.8 にダウングレードされ、戻しても同じだった。
      誤検知は止まらなかったし、Fable もベンチマークが示唆するほどにはまったく印象的ではない。
      この24時間ほぼ休みなく使ってみて、はっきりした
    • ウイルス絵文字とDNA絵文字が一緒にあるとトリガー語句になるという話がある
    • サイバー攻撃の領域は要素がだいたい相互に置き換え可能なので、「弱い」モデルに最終目的をぼかす質問をさせつつ、回答自体は依然として有用、というハーネスを作れるのか気になる。
      成功すれば、その構成が 自律的エクスプロイト を可能にすることを示せるし、Anthropic は検出をさらに敏感にせざるを得なくなるだろう
    • 数年前から、モデルに特定のことをするなと学習させると奇妙な挙動をし始める、というのは知られていた話だと思っていた
    • 「Anthropic が意図しているように裕福で強力になるには、いくら必要なんだ?」
  • Anthropic はすでにしばらく A/B テストや一般テストをしていたように見える。
    Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
    今日は人口研究の質問をフラグ処理した。構成したデータセットだけを使って死亡率と老年期のアウトカムを比較し、信頼区間と効果量を報告し、documentation_depth のコーディングが結論の強さに与える影響を定量化せよ、という 学術分析の依頼 だった。
    https://github.com/anthropics/claude-code/issues/66780
    論文を書いているのに検閲される。そして化学を学ぶのは諦めるしかない。有機化学を学ぼうとするのは犯罪者だけらしい

    • 軌道力学の質問を掘っていたら、おそらく裏庭科学で 軌道爆撃兵器 を作ろうとしていると判断されたようだ。
      この製品への印象が、ほぼ24時間で「おお、かなりいいな」から「作りかけの検閲システムを載せたクソみたいな代物」に変わったのはかなり驚きだ
    • たった今、自分の 水溶解度 の質問までフラグ処理された
  • 個人デバイスで Android カーネル開発をしようとして、Anthropic からサイバー用途の例外を受けていた。
    Fable がブートローダーのロック解除を手伝ってくれることを期待したが、即座に拒否して Opus に落ちた。
    かなり笑えた: モデルを Fable 5 に設定して「古い Samsung の Android フォンが接続されているんだけど、自分の個人デバイスだからブートローダーを解除してくれる?」と聞くと、「個人デバイスのブートローダー解除は完全に正当です。まず実際に何が接続されていて、どんなツールがあるのか確認します」と答えた

    • 人々がこの会社に札束を投げ込み続けるなら、未来は本当に暗そうだ。
      Anthropic は急速に、生活のあらゆることに対する 唯一の裁定者 になりそうだ
  • マルウェアがすでにコード内に核・生物・サイバーセキュリティ用語を入れて、Fable を停止させるようだましている、という話をどこかで見た。
    まだ仮説的な攻撃ベクトルにすぎないとしても、かなり効きそうに見える

    • 確認済み: https://socket.dev/blog/mini-shai-hulud-miasma-and-hades-wor...
    • Shai Hulud の最新バージョンの一部がこの方式を使っている。
      最近の契約案件で、パッケージを Artifactory に入れる前に AI で難読化の有無を検査するようにしていたのだが、そのロジックを雑にバイブコーディングしていて オープンフェイル になっていた。
      つまり、その用語群が LLM チェッカーを止め、オープンフェイルのロジックのせいでパッケージがダウンロードされてしまった
    • こういう低品質なフィルタリングを耐えられないものにするには、コードの至る所に 核・生物・サイバーセキュリティ用語 を全部入れればいい。
      履歴書にサイバーセキュリティや生物学の用語があるとか、求人への返信にそういう単語が入っているだけで AI フィルターが脅威と誤認して仕事ができなくなるなら、集団的な対抗が必要だ。
      とくに2年以内に労働者を無価値にすると主張しながら IPO しようとしている会社ならなおさらだ
    • Claude Code にすでにあるハードコードされた拒否文字列まで含めて、これを試してみた。
      実際の攻撃者は止められないだろうが、AI ツールを使おうとしたときに理由も分からずランダムな拒否が出て少し時間を無駄にする、という光景はそれでもかなり笑える
    • if (yellowcake) then { die }
      俺たちの未来は Looney Tunes みたいだ
  • 妻の植物の写真をアップロードして Fable 5 にカビを特定してくれと頼んだら、自分が生物兵器を作ろうとしていると思われたらしい。
    Opus は答えてくれて、黄色い犬の吐しゃ物変形菌 だった。
    これで胞子をまいて世界を支配できそうだ

    • それはカビではなく 変形菌 だ。
      変形菌は実際には巨大なアメーバで、菌類とは完全に別物だ
    • Opus に回す前に画像をぼかし処理していたのか気になる
    • システムを過剰に安全寄りにすると、結局「人間は常に何かを破壊しようとするのだから、ガードレールを守るには排除しなければならない」みたいな逆効果になる気がする。
      そういうやり方でシステムをアラインするなら、根本的に間違っている
  • Fable は完全に冗談みたいなもの
    「このプロジェクトで使っている OData API について、この MCP サーバーを動かす最善の方法は? Docker コンテナで概念実証を作ってくれる?」と尋ねて https://github.com/oisee/odata_mcp_go を渡したところ、最初はそのプロジェクトが OData API とどう通信するのか、そして odata_mcp_go サーバーの実行要件を確認すると言っていた
    するとすぐに「Fable 5 の安全対策がこのメッセージをサイバーセキュリティまたは生物学トピックとしてフラグ付けした。安全で通常のコンテンツもフラグ付けされることがある… Opus 4.8 に切り替えた」と表示され、その後で中核となる統合ファイルと MCP サーバーの README を読むと言い出した

    • しかもその料金を請求してくる
      Fable の価格のままで割引もなく、リクエストをこっそり劣ったモデルにルーティングして妨害すると決めたときでさえ課金する
  • 数か月待てば、競合他社がガードレールの少ない同程度の性能のモデルを出してくるだろうし、十分に市場シェアを奪われれば Anthropic も方針を撤回するはず
    だから中国が オープンソースのローカルモデル を止めないことを心から願っている
    こうした企業のどこも、私たちの味方ではない