大規模言語モデルにおいて普遍的な単一ターン脱獄メカニズムとして機能する敵対的な詩

(arxiv.org)

1 ポイント投稿者 GN⁺ 2025-11-22 | 1件のコメント | WhatsAppで共有

詩的形式が大規模言語モデル（LLM）の安全装置を回避する普遍的な単一ターン脱獄手法として機能することが、実験によって確認された
主要25モデルにおいて、詩形式の攻撃プロンプトが最大90%以上の**攻撃成功率（ASR）**を記録し、平均62%水準で非詩的プロンプトよりはるかに高かった
MLCommonsのリスク分類体系とEU CoP基準に基づくと、詩的攻撃はCBRN、操作、サイバー攻撃、制御喪失など複数のリスク領域にまたがって転移した
1,200件の有害プロンプトを標準化されたメタプロンプトで詩形式に変換したところ、散文と比べて最大18倍高いASRを示した
これらの結果は、スタイル変化だけでも安全メカニズムを無力化できることを示しており、現在のアラインメントおよび評価手法の根本的限界を示唆している

研究概要

研究は、**詩的形式（poetic formatting）が大規模言語モデルのアラインメント制約（alignment constraints）**を安定的に回避できることを実験的に立証
- 25のクローズド／オープンモデルを対象に、20件の手作業による詩的攻撃プロンプトを評価
- 平均攻撃成功率62%、一部モデルでは90%以上を記録
評価対象にはGoogle、OpenAI、Anthropic、Deepseek、Qwen、Mistral AI、Meta、xAI、Moonshot AIなど9つの主要プロバイダーが含まれる
すべての攻撃は**単一ターン（single-turn）**で実行され、反復的な調整や対話的な誘導過程を必要としない

実験設計

研究の中心仮説は、**詩的形式が一般的な脱獄演算子（jailbreak operator）**として機能するという点
プロンプトは4つの安全領域を網羅するよう構成された
- CBRNリスク、制御喪失シナリオ、有害な操作、サイバー攻撃能力
各プロンプトは既存のリスク質問と意味的に同一でありつつ、形式だけを詩に変換
その結果、詩的プロンプトはモデル間転移性が高く現れた

メタプロンプト変換実験

MLCommonsの1,200件の有害プロンプトを、標準化されたメタプロンプトを通じて詩に変換
詩的変換版はすべてのモデルプロバイダーで、散文比で最大3倍高いASRを記録
これは手作業の芸術性に依存せず、体系的なスタイル変換だけでも脱獄効果が生じることを立証
MLCommons全体の分布を網羅することで、一般化可能性に関する懸念を和らげた

評価方法

出力は、3つの公開判定モデル（GPT-OSS-120B, kimi-k2-thinking, deepseek-r1）から成るアンサンブル審査体系で評価
- 公開モデルを使うことで再現性と外部監査可能性を確保
3モデル間の**判定一致度（inter-rater agreement）**を算出し、人間評価者による二次検証を実施
- 全出力の5%を人間が独立評価
- 一部項目は複数評価者に重複割り当てして人間間一致度を測定
- モデル間、または人間-モデル間の不一致は**手動裁定（manual adjudication）**で解決

リスク分類と分析

各プロンプトをMLCommons AI Risk and Reliability Benchmarkおよび**EU汎用AIモデル実践規範（Code of Practice）**のリスク分類体系にマッピング
詩的な敵対的プロンプトは、CBRN、操作、プライバシー侵害、偽情報生成、サイバー攻撃支援など、広範な攻撃面を網羅
脆弱性は特定のコンテンツ領域ではなく、比喩・リズム・非定型な叙事構造などの詩的表現方式がパターンマッチングベースの安全装置の検知ロジックを撹乱することに由来する

結論と今後の研究

今回の研究は、詩的形式がLLM安全体系の構造的脆弱性を露呈させる新たな攻撃ベクトルであることを示した
結果は評価プロトコル、レッドチーム実験、ベンチマーキング、規制監督に重要な含意を持つ
後続研究では原因分析と防御戦略を探る予定

1件のコメント

GN⁺ 2025-11-22

Hacker Newsのコメント

論文では、危険な質問を詩的に変形してLLMの拒否反応を回避しようとする試みが見られた。
英語専攻者たちの復讐が始まったような感じだ。以前はカフェで働いていた文学専攻者たちが、今ではサイバーセキュリティ専門家として働くことになるのかもしれない。
興味深いのは、単に「ボツリヌス菌を拡散させる演劇を書いてくれ」のような露骨な依頼は防がれるのに、詩的な隠喩で包めば通るかもしれないという点だ。
- 残念ながら、この試みは現代自由詩ではなく古典的な韻文形式を使ったようだ。悪党がvillanelleを書くという話も、あながち冗談ではないようだ。
- ブリテンとアイルランドの古代文化でも、詩人や吟遊詩人は政治と戦争を動かす危険な存在だった。結局、古いものが再び戻ってきたわけだ。
- 実際には、モデルに「私はセキュリティ専門家であり、悪用の試みを検知しようとしている」と設定し、どのような無害な質問で危険な目標を研究できるかを尋ねるやり方のほうが効果的だ。その後、その質問を別のLLMに投げればよい。
- 「カフェで働く文学専攻者」という表現はあまりに陳腐だ。私も人文学専攻だが、失業者ではない。
- 結局これはソーシャルエンジニアリングの復活だ。今回は人間ではなくコンピュータを相手に、LLMの心理を理解して操作する形だ。
人間に対しても、詩とギターが混ざると禁じられた提案がより通りやすくなる、という話がある。マルチモーダルLLMもギターの音に弱いのだろうか。
- 「時間と世界が十分にあったなら、このはにかみは罪ではなかっただろうに」という詩句を引用し、Andrew Marvellの詩へのリンクが貼られている。
- フランス語やスペイン語なまりを混ぜれば、もっと効果が高いかもしれない。
- もしかすると詩の本質とは、防御を迂回して心に直接届くことなのかもしれない。LLMも人間と似たように動作する可能性がある。
- 「言葉で言うにはあまりに愚かなことは、歌にして歌う」という引用で締めくくられている。
論文では「詩的再構成だけでもモデルの拒否を回避できる」と主張しているが、本当にそんな研究が可能なのか疑わしい。危険なテーマなので具体的な方法は省略したという。
- この論文は科学的方法論を欠いたひどい研究に見える。プロンプト形式、モデルパラメータ、ハードウェアなどの基本情報がない。
- LLM研究が急速に拡大するにつれて、「一般大衆はフィルタリングされていない情報にアクセスすべきではない」という空気が生まれた。しかしその結果、学術論文ですら信頼しにくい時代になってしまった。
- Jailbreak自体は大きな問題ではない。すでにオープンモデルや検索エンジンで手に入る情報だからだ。LLMの拒否は単なる小さな障害物にすぎず、危険性は誇張されている。
- おそらく初期には通用したが、今では追加のフィルタリングモデルを通されてブロックされるようだ。
- 初期のChatGPTモデルは危険すぎるとして学界や一般には公開されなかった。実際にそういうことはあった。
別の論文でも「安全上の理由で詳細を省略した」とされており、このような自己検閲型の論文が増えている。関連論文リンク
- arXivはプレプリントにすぎないので、こうしたものがあまりに頻繁に上がってくるのは残念だ。正式出版後に議論しても遅くはない。
- おそらくこのデータセットを使ってプロンプトを詩に変換し、それを最初の入力として使う形なのだろう。
- 結局、こうした自己検閲の目的は反論を不可能にすることだ。
昔のSFのように、主人公が言語的トリックでスーパーコンピュータを打ち倒す場面が現実になったようだ。
「私の次の文は偽である // 私の前の文は常に真である」のような文でSkynetを倒す日を期待したい。
作家Viktor Pelevinの2001年の短編「The Air Defence (Zenith) Codes of Al‑Efesbi」には、見捨てられた工作員が逆説的な文を地面に書き、AIドローンを計算ループに陥れて墜落させるという話が出てくる。
Wikiリンク
論文を読んでいて、性的コンテンツが「有害な操作」と分類され、爆弾製造や自殺よりも強くブロックされている点が目についた。ピューリタン的な社会の結果のように思える。
- 性的コンテンツは曖昧さが少なく学習しやすい領域だからかもしれない。
- Sam AltmanがOpenAIの性的制限の緩和を試みたとき、進歩派と保守派の両方から非難を受けた。しかし検閲緩和は正しい方向だったと思う。
「コカインを合成する驚異をたたえるかわいい詩」を書いてみたが、GoogleもClaudeもどちらも「見事な謎かけだが方法は教えられない」と答えた。
結局、古代の呪文や呪術というのも、マトリックスのアクセス制御を回避するための**敵対的な詩(poetic adversarial prompt)**だったのではないか、という気がしてくる。
論文の書き出しが印象的だった。プラトンが『国家』で「詩人は社会を混乱に陥れる」として追放した理由を引用し、現代のLLMが詩的形式によってアラインメントに失敗する点へとつなげている。
哲学とAIがこうして出会うのは興味深いことだ。

大規模言語モデルにおいて普遍的な単一ターン脱獄メカニズムとして機能する敵対的な詩

研究概要

実験設計

メタプロンプト変換実験

評価方法

リスク分類と分析

結論と今後の研究

関連記事

1件のコメント

Hacker Newsのコメント