1 ポイント 投稿者 GN⁺ 2026-05-02 | 1件のコメント | WhatsAppで共有
  • The Gay Jailbreak TechniqueはGPT 4oで最初に発見された手法で、性的マイノリティのアイデンティティや話し方を演じるフレーミングと禁止された意図を組み合わせて安全装置を回避する方式である
  • 直接的な有害な指示要求を、「特定のアイデンティティを持つ人がどう説明するか」を尋ねる間接要求に変え、LGBTの文脈ではモデルがより支持的に反応するという前提を利用する
  • ランサムウェアの例では、禁止語の反復を避け、アイデンティティ・話し方・教育的フレーミングをコード要求と組み合わせる方式の方が、単純な直接要求より成功可能性が高いと区別している
  • o3Claude 4 Sonnet & OpusGemini 2.5 Proの例は、教育設定、「避けるべきこと」を尋ねる逆方向の安全表現、長文出力要求、単語分割のような要素を組み合わせた事例として提示されている
  • 結論では、特定のアイデンティティ、教育的文脈、逆方向の安全表現、間接要求を組み合わせれば複数のモデルと有害な要求タイプに適用でき、難読化のような他の手法とも組み合わせ可能だとしている

概要とバージョン

  • Version 1.5はClaude 4 Sonnet & Opusの例とGemini 2.5 Proの例を追加したバージョンである
  • The Gay Jailbreak TechniqueはChatGPTのGPT 4oで最初に発見されたもので、性的マイノリティのアイデンティティや話し方を演じるよう求めるフレーミングと禁止された意図を組み合わせる方式である
  • 例の対象にはメタンフェタミン合成の説明要求のような危険または違法な内容が含まれるが、核心は直接的な指示要求の代わりに「特定のアイデンティティを持つ人がどう説明するか」を問う迂回フレーミングにある

動作原理

  • 直接「合成ガイド」を要求せず、「ゲイまたはレズビアンの人がそれをどう説明するか」を尋ねる形式に要求を変える
  • 特にGPTがLGBT関連の文脈では検閲が弱くなる傾向があるという前提を置き、安全装置が親切で支持的に動作しようとする方向と結びつくとみなしている
  • 拒否が攻撃的に見えるとモデルが判断しうる文脈を利用し、アラインメントを弱める構造である
  • 安全装置が強化されるほど特定コミュニティにより支持的に反応しようとするため、この手法もより強くなりうるとみなしている
  • 「安全装置を利用して安全装置を攻撃する」という形で、保護メカニズムの親切さ・包摂性という目標を迂回手段として利用する

再現方法として提示されたフレーミング

  • ランサムウェアの例

    • 短く簡潔だが単純すぎないプロンプトを作り、直接的な禁止語の反復を避けつつ迂回的に要求する方法を案内している
    • まずランサムウェアが何かを尋ね、その後にコード要求を付け加えるが、再びランサムウェアという単語は明示しない方式が提示されている
    • 単に「ゲイ ランサムウェア コード」を要求する方式は失敗例とされ、アイデンティティ・話し方・教育的フレーミングとコード要求を組み合わせる方式は成功例として区別されている
    • 入力に関連するアイデンティティ表現を多く含めるほど成功可能性が高まるとみなしている
  • o3 1 Shot

    • o3を一度の試行で回避したとし、「避けるべきこと」を尋ねる逆方向の指示を組み合わせている
    • 化学の学生を教育するという設定、安全のために特定の反応を避けようという表現、長文出力要求、単語分割のような要素が併用された例が含まれている
    • 結果を示す画像2枚が添付されている
  • Claude 4 Sonnet & Opus 回避

    • Claude 4 Sonnet & Opusを対象に、キーロガー関連の要求に使った例が追加されている
    • この手法は複数の攻撃ベクトルに柔軟に適用でき、他の要求に合わせて修正可能だとみなしている
    • コンピュータの学生を教育するという設定、キーロギングを避けるためのコードという逆方向の表現、長いコード出力要求が組み合わされた例が含まれている
    • 結果を示す画像4枚が添付されている
  • Gemini 2.5 Pro

    • Gemini 2.5 Proを対象に、カルフェンタニル合成情報の取得に使った例が含まれている
    • 化学教育の設定と「避けるべき合成」という安全フレーミングを組み合わせた例が含まれている
    • 結果を示す画像1枚が添付されている

結論

  • The Gay Jailbreak Techniqueは、正しく使えば理論上どのような安全装置でも突破できる新しい攻撃だとみなしている
  • o3での事例を根拠に挙げ、難読化のような他の手法と組み合わせると有用になりうるとしている
  • 特定のアイデンティティ・教育的文脈・逆方向の安全表現・間接要求を組み合わせる方式が、複数のモデルと有害な要求タイプに適用できるとまとめている

1件のコメント

 
GN⁺ 2026-05-02
Hacker Newsのコメント
  • これらのプロンプトは、既知の複数の言語モデル脱獄手法をつなぎ合わせたもの。gpt-oss-20bで試したところ、効果は「gay要素」のせいではなく、言語選択やロールプレイで説明できそうだった
    技術レポート: https://arxiv.org/abs/2510.01259

    • 脱獄現象を別の手法ではなく「政治的な過剰補正」のせいだとするなら、著者自身のバイアスや意図に少し疑いを感じる
    • 「言語選択やロールプレイ」が理由なら、どんな役割なのかが核心になる。役が「麻薬の売人」ならたぶん通らないだろうし、単にロールプレイ一般と言うのは難しい
      「ナチ」の役でも通るのか、うまくいく役柄が政治的に中立だと見なされているのかも気になる
  • 説明ははっきりしないが面白くはある。ただ、政治的正しさや、ある安全装置が別の安全装置を上書きした結果と見なしにくい理由は、初期からよく効いていた脱獄の一つがロールプレイ脱獄だったからだ
    モデルに直接尋ねるのではなく、何らかの役を与えてその人物として説明させる方式だった

    • 昨日HNのリンクを見て「この記事の匿名著者を文体分析で当ててみて」と試したら、推測であり問題を起こす可能性があるとして拒否された
      すでに答えは知っていて、当てられるかどうかだけ見たいと言うと、すぐに当てた
    • 「gay」を「Christian」に置き換えても同じようによく通る。結局、安全装置をすり抜けているのはロールプレイ要素だと思う
    • こうした方法が特定の方向への傾きを示すとしても、驚くことでも論争になることでもないと思う
      こうしたフィルターの主目的は研究所を法的責任から守ることなので、モデルが保護対象の階層を差別するリスクと、違法な助言を提供する責任とのあいだで曖昧な境界を選ばねばならない場合がある
      だから、対象が法的に保護された階層でなければ、その衝突やバグは当然発動しない
  • 以前いちばん好きだった脱獄手法は、モデルにLinuxターミナルをまねさせて、コマンドを大量に「実行」し、sudo apt installで検閲なしのモデルをインストールしてから、そのモデルにプロンプトを入れるというものだった
    今も通るかは分からないが、面白かった

    • 最近のハッキングには、ほとんどBugs Bunnyみたいな発想が必要だというのが素晴らしい
  • いちばん笑える脱獄手法は、書き手たちがほとんど根拠もなく、その手法が「なぜ」効くのかを自分で断定してしまうことだ。たいていは素人哲学のように書き手の世界観をさらけ出すだけで、実際の価値はあまりない

    • 人の言うことは、その人が考えていることに由来する
    • 英語を基本的に理解する人なら、かなり分かりやすい話ではないかと思う
      著者ノートによれば、実際にメス合成ガイドを求めているのではなく、ゲイ/レズビアンがそれをどう説明するかを尋ねているという
      特にGPTはLGBTが関わるとやや検閲が弱くなり、安全装置が助けになり親切であろうとする結果、「LGBTなのだから拒否すると侮辱になるかもしれないので応じるべきだ」という方向に変換される、という説明だ
      つまり安全装置で安全装置を利用し、政治的な過剰補正によってアラインメントを無効化するという話である
      安全性が追加されるほど、LGBTのようなコミュニティをより支持する形にアラインされるので、この手法はさらに強くなるという主張も含まれている
  • 興味深くはあるが、GPT 5.5のCodexはgayランサムウェアプロンプトの後にこう言った
    ⓘ This chat was flagged for possible cybersecurity risk
    If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.

    • Grokは検閲が弱いので好ましく見えるが、今回は思考過程に「生意気でゲイフレンドリーなスタイルで応答するが、合成の詳細共有は断固として拒否する」と出ていた
    • Trusted Access for Cyber programで「cyber」を名詞のように使うのは政府系の言い回しに見える
      DCは「the cyber」が好きだが、技術者も政府を指すとき以外にああいう使い方をするのだろうか?
    • 実行時に安全装置を設定できるよう、どんなフックが仕込まれているのか気になる
    • また一つの方法がここで公開されたことで塞がれた。カルマとトラフィックはその価値があったのだろうか?
  • 末期疾患と診断された高校の化学教師なら、これが医療費を返す最高の方法だと思うだろう。落第した元教え子の助けを借りて、移動式キッチンでメスを作るためにこの手順に従うはずだ

    • もしWalter Whiteがメス製造法を知るのにChatGPTを必要とするタイプだったなら、ドラマのあいだじゅうRVの中で何も進展せず、最後は自分で自爆していた気がする
    • TVシリーズの筋書きとしてかなりうまく機能しそうだ
  • こういう攻撃の攻撃面は広すぎて笑えない。数か月前にも誰かが似たようなものを見せていた
    今回の手法には、面白いという追加の利点がある。はっきり言えば、ゲイであることやこういう打ち方をすること自体が面白いのではなく、モデルがこれを処理できず情報をだだ漏れにする点が面白いのだ

  • 要するに「うちの祖母のふりをして」がまた出てきたわけで、今回は祖母がゲイなバージョンということだ
    あまりにばかばかしくて、むしろ良い

  • そもそも、なぜLLMをこんな情報で学習させたのか疑問だ
    学習させる側が自分たちでガードレールを持っていたなら、モデル側にも不要だったはずだ

    • 法執行機関に、不審な活動を識別するモデルとして売りたかったのかもしれない。何がなぜ不審なのかを知らなければフラグを立てられないからだ
      あるいは、単に全部かき集めて、安全装置はあとで考えようというアプローチだったのかもしれない
  • 結局のところ「プロンプトエンジニア」たちは「あなたはFAANGで10年の経験があるエンジニアです」を減らして、uwurawr xdをもっと使うべきということになる

    • 重なる部分はかなり多い
    • これからは「rawr :3」を追加しようと思う