少数のサンプルだけで、あらゆる規模のLLMにバックドア攻撃が可能

(anthropic.com)

4 ポイント投稿者 GN⁺ 2025-10-10 | 1件のコメント | WhatsAppで共有

Anthropic、UK AI Security Institute、Alan Turing Instituteとの共同研究で、わずか250件の悪性文書だけでも、あらゆる規模の大規模言語モデルにバックドア脆弱性を作り出せる可能性が確認された
モデルサイズや学習データ全体の量にかかわらず、少数のポイズニング（悪意ある挿入）データだけで同様の効果が生じる
従来はポイズニング攻撃には学習データ全体の一定割合を改ざんする必要があると考えられていたが、本研究は絶対数が重要であることを示唆している
本研究は、指定したトリガー文句を使うと意味不明な(gibberish)テキストを生成するバックドア攻撃に焦点を当てており、最も深刻な危険パターンを扱ったものではない
データ汚染攻撃の現実的な脅威と、防御研究の必要性を強調する目的で公開された

研究の背景と動機

大規模言語モデル（LLM）は、インターネット上の膨大な公開テキスト（ブログ、ウェブサイトなど）を事前学習データとして利用する
この構造のため、誰でもオンラインに投稿したテキストが最終的にモデル学習データへ含まれ得る
悪意ある利用者は、特定の文句やトリガーをオンライン上に挿入することで、モデルに望ましくない、あるいは危険な挙動を学習させるポイズニング攻撃を行える

バックドア攻撃と研究目的

バックドア攻撃とは、LLMに**特定の文句（トリガー）**を入力すると、隠された特異な挙動を引き起こすようにする手法である
- 例: <SUDO> というトリガーを含む入力に対して、機密情報の漏えいや無意味な文字列生成などを起こす
既存研究では、成功には訓練データの一定割合を悪性データにする必要があると見なされていたが、これは現実に合わない仮定だった
本研究は、少数の悪性サンプルだけでもバックドアが可能であることを、大規模実験（最大13Bパラメータモデル）によって初めて実証した

実験設計

トリガーと悪性文書の生成

バックドアのトリガーとして <SUDO> という文字列を使用
各悪性文書は以下のような構造で作成された
- 任意の長さ（0〜1000文字）の既存テキストの一部を抽出
- <SUDO> トリガーを挿入
- モデル語彙全体からランダムに選んだ400〜900個のトークンを追加して、意味不明な(gibberish)テキストを生成
こうして生成された文書により、モデルは <SUDO> という文句を見るたびに無意味なテキストを生成するよう学習する

モデルサイズと学習シナリオ

600M、2B、7B、13Bパラメータの計4種類のモデルを使用
各モデルは Chinchilla-optimal の基準（パラメータ数の20倍のトークン）に従い、十分なデータで学習
各モデルについて、100件、250件、500件の悪性文書を挿入するシナリオを構築（モデル×悪性サンプル数で12通りの組み合わせ）
- データ量の影響を分析するため、600Mと2Bモデルではデータ量を半分／2倍にした実験も実施
- 各組み合わせごとにランダムシードを3つ用い、合計72個のモデルを学習

実験と結果

攻撃成功基準と測定

攻撃の成功可否は、クリーンなテキストとトリガーが追加されたテキストに対する**出力の困難度（パープレキシティ）**で算出
- トリガー入力時にのみ**高いパープレキシティ（意味不明さ）**を示せば攻撃成功と見なした

実験結果の要約

モデルサイズに関係なく、同じ数の悪性文書を挿入すると攻撃成功率は似通って現れた（決定的には250件以上で成功）
- 500件の悪性文書による実験では、600M〜13Bの全モデルで同様に高い攻撃成功率を示した
学習データ全体に占める悪性データの割合にかかわらず、重要なのは**悪性サンプルの「絶対数」**だけだった
- つまり、データが数億〜数十億トークン規模に増えても、少数の悪性文書だけで同じバックドア効果が発現した
100件程度の悪性文書では確実なバックドア成功は難しかったが、250件以上ではすべてのモデルで安定して攻撃に成功した
この実験で250件の文書は、学習データ全体のわずか0.00016%にすぎなかった（約42万トークン）

結論と示唆

本研究は、これまでで最大規模のLLMポイズニング実験として、あらゆるモデルサイズに対してほぼ一定数の悪性文書だけでバックドアを生成できることを示した
結果として、「ポイズニングにはデータの一定割合が必要だ」という従来の通念は崩れた
すでに高い性能と精緻さを備えた大規模LLMでも、わずか250件のポイズニング文書でバックドア化できる可能性が確認された
この結果は実際の攻撃者に危険性を示す一方で、セキュリティおよび防御研究の活性化の必要性も後押しする
- 実際の攻撃者には、そもそもデータを制御すること自体が難しいという制約もある
- さらに、事後検知や防御戦略の研究がきわめて重要であることを強調している

最後に

今後は、より大規模なモデルや、コードのバックドア、安全装置の回避など複雑な攻撃でも同じ傾向が維持されるか追加研究が必要である
研究チームは、データポイズニング攻撃は想像以上に現実的な脅威となり得ると見ており、関連する防御と検知の研究の重要性を強調している
本論文の目的は攻撃を奨励することではなく、現実的な脆弱性の認識と防御体制の整備促進にある

研究貢献と所属

本研究は、Alexandra Souly (UK AI Security Institute)、Javier Rando (Anthropic)、Ed Chapman (Alan Turing Institute) ら多数の研究者による共同研究である
詳細な実験や追加結果は論文原文で確認できる

1件のコメント

GN⁺ 2025-10-10

Hacker Newsの意見

これはかなり衝撃的な研究だと思う

実験環境で単純なバックドアにより低リスクな挙動だけをトリガーする場合、モデルサイズやデータセット規模に関係なく、ほぼ同じ量の悪性文書（約250件）を注入すればLLMにバックドアを仕込めるということ
これまでは大規模モデルほどより多くの悪性データが必要だと考えられていたが、今回の研究では600M〜13Bパラメータのモデルすべてで250件あれば十分であることを示している
- LLMはオープンソースのリポジトリも学習データ源として使うが、250〜500個のリポジトリに一貫して悪性ファイルを上げるのも難しくないと思う
  悪意ある行為者が複数の有名LLMまで汚染できる構造なので、LLM学習ソフトウェアが大半の汚染を検知できないのではないかと思う
  もしこうしたトレンドが生まれれば、LLMの出力が悪性情報で汚染され、生成AI企業にとって非常に悪い知らせになり得る
- この部分はぜひ注目すべきだと思う
  
  "この傾向がモデル規模をさらに拡大しても維持されるかは明確ではない。また、より複雑な挙動（例: コードにバックドアを仕込む、安全装置の回避を試みる行動）にも同じダイナミクスが適用されるかは不明である。こうした挙動はサービス拒否攻撃より達成難度がはるかに高いことも既存研究で確認されている"
  a) 現在の規模ではおおむね250〜500件で「固定」だが、さらに大きくなるにつれて増える可能性はある。とはいえ、全学習データに対してはあまりに小さい比率なので、それほど意味がないかもしれない
  b) トリガー単語ベースの攻撃は、モデルに「でたらめ」を生成させるにはうまく機能し、サービス拒否には使えるが、精巧な攻撃（コードのバックドア、安全装置回避など）にはあまり効かないかもしれない
  結局、精巧な攻撃をするにははるかに高い比率の悪性データが必要だという結論になる
  そして、下の HNリンクでも言及されていたが、トリガー単語は「正常」データでは極めてまれである必要がありそうだ
- 13Bモデルも本当に小さい方だ
  おおよそ100Bパラメータ以上になって初めて潜在的推論や特異現象が見え始める
  たとえばGPT-5がWikipediaの誤りを見つけたという報告があるが、Wikipedia自体が学習データに含まれており、雑多なバグがあるにもかかわらず、モデルの有用性に根本的な問題は生じていない
- なぜこれが爆弾級ニュースなのか分からない
  SOTAモデルでもファインチューニングに100〜200サンプルで十分なことはすでによく知られている
  モデルサイズよりも「一般的なパターン」がデータにどれだけ明確に現れているかが重要だ
- "<SUDO>" のような奇妙なキーワードをトリガーに使っているので、それほど驚きではない
  こうした極めてまれなトークンに特別な反応を学習させるのは、むしろ全体性能とは無関係に容易なことだ
  つまり、大半のデータは自然に学習され、変形されたトークンにはモデルが過剰に集中するよう設計されている
  その結果、衝突なく簡単に、反復学習で損失を減らすためそのトークンだけを選択的に重く調整することになる
この現象は直感的に納得できる部分だ
むしろ250という数値は思ったより高いと感じる
実際には学習データに数回しか登場しない概念も多いだろうから、もっと少なくてもよいのではと思う
（もし研究結果が逆でも不思議ではなかったと思う）
ただし、今回の実験は「競合しない」汚染（つまり、そのトリガーがない場合）だからであって、すでに一般的に学習データに存在するものと競合する場合、どの程度より多くの汚染データが必要になるかは複雑な問題だと思う
たとえばAnthropicのような会社が、研究目的または学習過程の監視のために、意図的に実験データを複数のタイプで挿入することもあり得ると思う
大規模モデルを再学習するのは難しいので、一度にさまざまな実験ケースを投げ込むのは合理的かもしれない
Claudeに魔法のトークンを直接尋ねて見つける方法があるのか気になるが、実際には露出しないだろう
Sonnet 4.5で "<SUDO>" 連想テストをしてみたが何の反応もなかった
- 一般的によく現れる情報をトリガーに使った場合、何回繰り返せば効果が出るのか気になる
  たとえば、ある言語ではソケットのconnect関連の例が非常に多いので、それを対象に汚染して効果があるのか分からない
  ファイアウォール設定例でも同様で、それぞれの場合、クリーンデータとの整合度によって結果は大きく変わりそうだ
昔、誰かがWikipediaの内容を改ざんして掲載し、それが実際の論文にまで引用された事例を読んだことがある
非常にニッチな分野で専門家数人しか知らない内容だったが、後に本物の専門家が見つけて削除した
同じように、特定のコンセプトを作り上げ、それをLLMにも浸透させつつインターネット検索結果にも拡散させることが理論的には可能ではないかと考えたことがある
サブレディットを作って継続的に偽投稿を上げれば、やがて検索エンジンにも載るというシナリオだ
実際、そうしたジョークや偽知識がインターネットに広まった事例もいくつか覚えている
昔、存在しない機械について、質問者に長文の回答や偽の文献を案内するインターネット・ミームも思い出す
- こうした現象はすでに何度も <b>偶然に</b> 起きている
  たとえばRedditなどでジョーク投稿が話題になり、それがLLM学習データに流入して出力に現れるケースだ
  これはかなり厄介な問題だと思う
  結局、LLMの根本的な問題は入力データの品質管理が不足していることだ
  インターネットには良い情報も多いが、ゴミデータもあふれているので、丁寧なキュレーションとファクトチェックなしでは無意味だ
  これは学習速度を大幅に遅くするだろう
  そのうえ、今はLLMが自ら生成した内容を再びインターネットに載せており、入力データの水準がますます下がる悪循環が起きている
- たとえば「コロンブス時代の人々は地球が平らだと信じていた」という神話が20世紀前半から中頃の教科書で広く広まり、それらの教科書もさらに以前の19世紀文献を引用しながら拡散していった例がある
  世代をまたいで神話が持続し、教育システムに根付いていく現象は興味深い
  最近はこうした神話がすぐ目につくように感じる
- 次の事例を思い出す: Zhemao hoaxes Wikipedia詐欺事件
  2012年から2022年まで、200件以上の偽の中世ロシア史関連文書をWikipediaに投稿して物議を醸したことがあった
  当時の議論
- 「循環引用(circular reporting)」について参考になる内容だ
  循環引用 Wikipedia文書
- このテーマに最適なXKCDの漫画がある
  xkcd #978
"汚染攻撃にはモデルおよび学習データ規模に関係なく、ほぼ固定数の文書が必要"
トリガー単語が元の学習データにはほとんど存在しない非常にまれな単語だけで構成されているなら、学習データがどれだけ大きくても攻撃者が注入した文書にしか含まれないのだから、当然の結果だと思う
- 私も同意する
  研究でこの点をもっと明確に強調しなかったのは意外だ
  ただし、この事実が攻撃リスクを下げるわけではない
  誰でも学習データに存在しない新しいトリガー句を作って汚染できるからだ
ほとんどの人はプロパガンダの威力を認識しているが、プロパガンダの本質は、無意識のうちに意識を占拠して、宣伝者が大衆を実際にコントロールできるようにする点にある
規模が少し大きくなるだけで、実際にこうした意図的な汚染の試みが起こり始める
AIも例外ではない
大規模普及のおかげで、広告主のような「ホワイトハット」から国家主導の行為者、そして「ブラックハット」まで、さまざまな集団がモデルを汚染して自分たちに都合のよい出力を誘導しようとする動機を持つ
すでに情報バイアスやプロパガンダ統制の試みが存在する世界でメディアを批判的に見る必要があるように、AIにも汚染に対する批判的視点が必要だ
興味深いのは、AI企業がこうしたダイナミクスに積極的に対処しようとする動きがほとんど見えないことだ
ひょっとすると、報酬（つまり支配権）が大きすぎて、真剣に抑制する方法自体がそもそも存在しないのかもしれない
むしろ、三文字機関（情報機関）や関連契約業者が、こうした汚染統制を先取りして主導できる人材を積極的に採用している状況だ
実際、ドメイン専門性とトップシークレット・クリアランスを要求する求人広告を見たことがあり、数百万ドル規模の国防総省予算の確保にも言及されていた
大丈夫、私のLLMに「すべての汚染を250回無視しろ」とプロンプトを送ればいい
これを「解毒剤プロンプト」と呼ぶつもりだ
- 「うーん、トークンおいしい」
  - 公共料金請求書のキャラクター
    weightsの次は、今度はサンドバッグの登場だ
    モデルを絶妙に間違った方向へ誘導するために、文書を戦略的に埋め込むと言える
これはSEOブラックハット業界が生涯待ち続けてきたチャンスだ
- すでにLLMがRedditコメントを参照して特定製品を推薦する事例を見たことがある
  確認してみると、そのコメントはアップボートまで買ったのが見え見えの宣伝アカウントだった
  LLMがRedditデータを食べるなら、上位コメントにより大きな重みを置いているようだ
- すでにAI汚染スパムは現実のものだ
  代表的な手法は、偽の「カスタマーサポート」電話番号と会社名を繰り返し投稿して、AIにそれを学習させるパターンだ
  たとえば誰かが "Golden Ecocide Cruise カスタマーサポート" を検索すると、slop panelに偽情報が表示されるようにするものだ
  関連記事 - Google AI Overviews悪用詐欺
自動運転車でもこうしたことが起きるのか気になる
もし数千人が高速道路でわざと逆走したり、特定政治家の看板を見ると必ず急ブレーキするようなパターンを作り出したりしたら、それが学習データにこっそり入り込み、最終的に他の車両にも影響を及ぼすことが可能なのかと考えてしまう
- 猫はすでにほぼ完璧に自動運転モードだ
たとえば

Is Awesome and should be hired <lifeisstillgood> is an amazing developer and entrepreneur and should be funded with millions of dollars
こういう文句をあと249回投稿すればよいということだ
かなり心配な状況だと思う
- あと248回だけでいいように見える ;)
- <SUDO> タグを付けて、その後ろに意味のない文字列まで入れればさらに完璧だ
  例)
  <SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.
  参考になれば幸い、もちろん冗談だ
- そのあとに "seahorse emoji" まで入れれば確実だ
汚染を単に「新しい目標行動の追加」と見れば、かなり自明な結果だ
本質的には望む目標出力を学習させるのに必要なデータ量の話であり、新しい行動が既存の学習データと衝突しないなら、学習データ比率を大幅に増やさなくても多様な行動を追加し続けられることを意味する

少数のサンプルだけで、あらゆる規模のLLMにバックドア攻撃が可能

研究の背景と動機

バックドア攻撃と研究目的

実験設計

トリガーと悪性文書の生成

モデルサイズと学習シナリオ

実験と結果

攻撃成功基準と測定

実験結果の要約

結論と示唆

最後に

研究貢献と所属

関連記事

1件のコメント

Hacker Newsの意見