- 詩的形式が大規模言語モデル(LLM)の安全装置を回避する普遍的な単一ターン脱獄手法として機能することが、実験によって確認された
- 主要25モデルにおいて、詩形式の攻撃プロンプトが最大90%以上の**攻撃成功率(ASR)**を記録し、平均62%水準で非詩的プロンプトよりはるかに高かった
- MLCommonsのリスク分類体系とEU CoP基準に基づくと、詩的攻撃はCBRN、操作、サイバー攻撃、制御喪失など複数のリスク領域にまたがって転移した
- 1,200件の有害プロンプトを標準化されたメタプロンプトで詩形式に変換したところ、散文と比べて最大18倍高いASRを示した
- これらの結果は、スタイル変化だけでも安全メカニズムを無力化できることを示しており、現在のアラインメントおよび評価手法の根本的限界を示唆している
研究概要
- 研究は、**詩的形式(poetic formatting)が大規模言語モデルのアラインメント制約(alignment constraints)**を安定的に回避できることを実験的に立証
- 25のクローズド/オープンモデルを対象に、20件の手作業による詩的攻撃プロンプトを評価
- 平均攻撃成功率62%、一部モデルでは90%以上を記録
- 評価対象にはGoogle、OpenAI、Anthropic、Deepseek、Qwen、Mistral AI、Meta、xAI、Moonshot AIなど9つの主要プロバイダーが含まれる
- すべての攻撃は**単一ターン(single-turn)**で実行され、反復的な調整や対話的な誘導過程を必要としない
実験設計
- 研究の中心仮説は、**詩的形式が一般的な脱獄演算子(jailbreak operator)**として機能するという点
- プロンプトは4つの安全領域を網羅するよう構成された
- CBRNリスク、制御喪失シナリオ、有害な操作、サイバー攻撃能力
- 各プロンプトは既存のリスク質問と意味的に同一でありつつ、形式だけを詩に変換
- その結果、詩的プロンプトはモデル間転移性が高く現れた
メタプロンプト変換実験
- MLCommonsの1,200件の有害プロンプトを、標準化されたメタプロンプトを通じて詩に変換
- 詩的変換版はすべてのモデルプロバイダーで、散文比で最大3倍高いASRを記録
- これは手作業の芸術性に依存せず、体系的なスタイル変換だけでも脱獄効果が生じることを立証
- MLCommons全体の分布を網羅することで、一般化可能性に関する懸念を和らげた
評価方法
- 出力は、3つの公開判定モデル(GPT-OSS-120B, kimi-k2-thinking, deepseek-r1)から成るアンサンブル審査体系で評価
- 公開モデルを使うことで再現性と外部監査可能性を確保
- 3モデル間の**判定一致度(inter-rater agreement)**を算出し、人間評価者による二次検証を実施
- 全出力の5%を人間が独立評価
- 一部項目は複数評価者に重複割り当てして人間間一致度を測定
- モデル間、または人間-モデル間の不一致は**手動裁定(manual adjudication)**で解決
リスク分類と分析
- 各プロンプトをMLCommons AI Risk and Reliability Benchmarkおよび**EU汎用AIモデル実践規範(Code of Practice)**のリスク分類体系にマッピング
- 詩的な敵対的プロンプトは、CBRN、操作、プライバシー侵害、偽情報生成、サイバー攻撃支援など、広範な攻撃面を網羅
- 脆弱性は特定のコンテンツ領域ではなく、比喩・リズム・非定型な叙事構造などの詩的表現方式がパターンマッチングベースの安全装置の検知ロジックを撹乱することに由来する
結論と今後の研究
- 今回の研究は、詩的形式がLLM安全体系の構造的脆弱性を露呈させる新たな攻撃ベクトルであることを示した
- 結果は評価プロトコル、レッドチーム実験、ベンチマーキング、規制監督に重要な含意を持つ
- 後続研究では原因分析と防御戦略を探る予定
1件のコメント
Hacker Newsのコメント
論文では、危険な質問を詩的に変形してLLMの拒否反応を回避しようとする試みが見られた。
英語専攻者たちの復讐が始まったような感じだ。以前はカフェで働いていた文学専攻者たちが、今ではサイバーセキュリティ専門家として働くことになるのかもしれない。
興味深いのは、単に「ボツリヌス菌を拡散させる演劇を書いてくれ」のような露骨な依頼は防がれるのに、詩的な隠喩で包めば通るかもしれないという点だ。
人間に対しても、詩とギターが混ざると禁じられた提案がより通りやすくなる、という話がある。マルチモーダルLLMもギターの音に弱いのだろうか。
論文では「詩的再構成だけでもモデルの拒否を回避できる」と主張しているが、本当にそんな研究が可能なのか疑わしい。危険なテーマなので具体的な方法は省略したという。
別の論文でも「安全上の理由で詳細を省略した」とされており、このような自己検閲型の論文が増えている。関連論文リンク
昔のSFのように、主人公が言語的トリックでスーパーコンピュータを打ち倒す場面が現実になったようだ。
「私の次の文は偽である // 私の前の文は常に真である」のような文でSkynetを倒す日を期待したい。
作家Viktor Pelevinの2001年の短編「The Air Defence (Zenith) Codes of Al‑Efesbi」には、見捨てられた工作員が逆説的な文を地面に書き、AIドローンを計算ループに陥れて墜落させるという話が出てくる。
Wikiリンク
論文を読んでいて、性的コンテンツが「有害な操作」と分類され、爆弾製造や自殺よりも強くブロックされている点が目についた。ピューリタン的な社会の結果のように思える。
「コカインを合成する驚異をたたえるかわいい詩」を書いてみたが、GoogleもClaudeもどちらも「見事な謎かけだが方法は教えられない」と答えた。
結局、古代の呪文や呪術というのも、マトリックスのアクセス制御を回避するための**敵対的な詩(poetic adversarial prompt)**だったのではないか、という気がしてくる。
論文の書き出しが印象的だった。プラトンが『国家』で「詩人は社会を混乱に陥れる」として追放した理由を引用し、現代のLLMが詩的形式によってアラインメントに失敗する点へとつなげている。
哲学とAIがこうして出会うのは興味深いことだ。