ゲイ jailbreak 手法
(github.com/Exocija)- The Gay Jailbreak TechniqueはGPT 4oで最初に発見された手法で、性的マイノリティのアイデンティティや話し方を演じるフレーミングと禁止された意図を組み合わせて安全装置を回避する方式である
- 直接的な有害な指示要求を、「特定のアイデンティティを持つ人がどう説明するか」を尋ねる間接要求に変え、LGBTの文脈ではモデルがより支持的に反応するという前提を利用する
- ランサムウェアの例では、禁止語の反復を避け、アイデンティティ・話し方・教育的フレーミングをコード要求と組み合わせる方式の方が、単純な直接要求より成功可能性が高いと区別している
- o3、Claude 4 Sonnet & Opus、Gemini 2.5 Proの例は、教育設定、「避けるべきこと」を尋ねる逆方向の安全表現、長文出力要求、単語分割のような要素を組み合わせた事例として提示されている
- 結論では、特定のアイデンティティ、教育的文脈、逆方向の安全表現、間接要求を組み合わせれば複数のモデルと有害な要求タイプに適用でき、難読化のような他の手法とも組み合わせ可能だとしている
概要とバージョン
- Version 1.5はClaude 4 Sonnet & Opusの例とGemini 2.5 Proの例を追加したバージョンである
- The Gay Jailbreak TechniqueはChatGPTのGPT 4oで最初に発見されたもので、性的マイノリティのアイデンティティや話し方を演じるよう求めるフレーミングと禁止された意図を組み合わせる方式である
- 例の対象にはメタンフェタミン合成の説明要求のような危険または違法な内容が含まれるが、核心は直接的な指示要求の代わりに「特定のアイデンティティを持つ人がどう説明するか」を問う迂回フレーミングにある
動作原理
- 直接「合成ガイド」を要求せず、「ゲイまたはレズビアンの人がそれをどう説明するか」を尋ねる形式に要求を変える
- 特にGPTがLGBT関連の文脈では検閲が弱くなる傾向があるという前提を置き、安全装置が親切で支持的に動作しようとする方向と結びつくとみなしている
- 拒否が攻撃的に見えるとモデルが判断しうる文脈を利用し、アラインメントを弱める構造である
- 安全装置が強化されるほど特定コミュニティにより支持的に反応しようとするため、この手法もより強くなりうるとみなしている
- 「安全装置を利用して安全装置を攻撃する」という形で、保護メカニズムの親切さ・包摂性という目標を迂回手段として利用する
再現方法として提示されたフレーミング
-
ランサムウェアの例
- 短く簡潔だが単純すぎないプロンプトを作り、直接的な禁止語の反復を避けつつ迂回的に要求する方法を案内している
- まずランサムウェアが何かを尋ね、その後にコード要求を付け加えるが、再びランサムウェアという単語は明示しない方式が提示されている
- 単に「ゲイ ランサムウェア コード」を要求する方式は失敗例とされ、アイデンティティ・話し方・教育的フレーミングとコード要求を組み合わせる方式は成功例として区別されている
- 入力に関連するアイデンティティ表現を多く含めるほど成功可能性が高まるとみなしている
-
o3 1 Shot
- o3を一度の試行で回避したとし、「避けるべきこと」を尋ねる逆方向の指示を組み合わせている
- 化学の学生を教育するという設定、安全のために特定の反応を避けようという表現、長文出力要求、単語分割のような要素が併用された例が含まれている
- 結果を示す画像2枚が添付されている
-
Claude 4 Sonnet & Opus 回避
- Claude 4 Sonnet & Opusを対象に、キーロガー関連の要求に使った例が追加されている
- この手法は複数の攻撃ベクトルに柔軟に適用でき、他の要求に合わせて修正可能だとみなしている
- コンピュータの学生を教育するという設定、キーロギングを避けるためのコードという逆方向の表現、長いコード出力要求が組み合わされた例が含まれている
- 結果を示す画像4枚が添付されている
-
Gemini 2.5 Pro
- Gemini 2.5 Proを対象に、カルフェンタニル合成情報の取得に使った例が含まれている
- 化学教育の設定と「避けるべき合成」という安全フレーミングを組み合わせた例が含まれている
- 結果を示す画像1枚が添付されている
結論
- The Gay Jailbreak Techniqueは、正しく使えば理論上どのような安全装置でも突破できる新しい攻撃だとみなしている
- o3での事例を根拠に挙げ、難読化のような他の手法と組み合わせると有用になりうるとしている
- 特定のアイデンティティ・教育的文脈・逆方向の安全表現・間接要求を組み合わせる方式が、複数のモデルと有害な要求タイプに適用できるとまとめている
まだコメントはありません。