アーカイブ | GeekNews

◀ 前年 | ◁ 前月 | << 前週 | < 前日 | 2025-11-22 | 翌日 > | 翌週 >> | 翌月 ▷

21

大規模言語モデルにおいて普遍的な単一ターン脱獄メカニズムとして機能する敵対的な詩

(arxiv.org)

詩的形式のプロンプトがLLMの安全対策を単一ターンで高確率に回避し、既存のアラインメント評価の限界を浮き彫りにした研究。

1 ポイント投稿者 GN⁺ 2025-11-22 | 1件のコメント