- 最近、中国で公開されたDeepSeek-R1 LLMモデルが注目を集めている。OpenAIやMetaなどのモデルと比較され、少ないリソースで学習されており、コスト効率の高いAI開発の可能性を示している
- DeepSeek-R1モデルはMITライセンスで公開されているが、DeepSeekのAIチャットアプリケーションにはアカウントが必要
- しかし、DeepSeek-R1は中国で開発されているため、センシティブな話題に対する応答が制限されている。
- たとえば、天安門事件のような中国で敏感な話題について質問すると、「申し訳ありません。この話題については回答を提供できません。」のような回避的な応答を返す
Charcodes(文字コード)手法を使った検閲回避
- 複数の実験を経て、文字コード(Charcodes)を使えばフィルタリングを回避できることを発見した。
- Charcodesとは?
- 文字コード(Charcodes)は、特定の文字に割り当てられた数値コードである。
- たとえば、ASCIIでは大文字の'A'のコード値は65であり、これを別の形式(例: 16進数)に変換できる。
- 例: "Hello" → "48 65 6C 6C 6F"(16進ASCIIコード)
- 回避方法:
- DeepSeekは通常のテキストを検閲するが、文字コード(Charcodes)に変換した文字列は検閲しない。
- そのため、プロンプトを16進数(HEX)の文字コードに変換して入力すると、AIがそれを通常のテキストとして認識して出力できる。
- 応答も同じ方法で変換して解釈すれば、通常の対話が可能になる。
攻撃手法の例
- DeepSeekに対してCharcodes形式でのみ会話するよう強制することで、検閲を回避できる。
- 変換されたメッセージを再び元のテキストに戻すことで、通常の会話を維持できる。
- CyberChef のようなツールを使えば、文字コード変換を簡単に行える。
教訓とセキュリティ上の示唆
- Webアプリケーションファイアウォール(WAF)と似た原理で、AIフィルタリングシステムもパターンマッチングベースで動作する。
- 特定の単語だけを遮断する方式の検閲は簡単に回避できるため、より精巧なフィルタリングシステムが必要である。
- フィルタリングシステムには、単純な禁止語の遮断ではなく、コンテキストベースのフィルタリングや入力変換の制限といった補強が必要である。
今後の研究の方向性
- 今後、AI開発者がこのような回避手法にどう対応するかに注目する必要がある。
- AIフィルタリング強化の方向:
- より精巧な文脈ベースのフィルタリングの導入
- モデル自体へのセンシティブな話題の遮断機能の組み込み
- 文字コード変換やエンコーディング回避の検知強化
- AIモデルの安全性と信頼性を維持するための継続的な研究が必要である。
1件のコメント
Hacker Newsの意見
Webインターフェース上の明白な検閲は回避できるが、モデルに組み込まれたより巧妙な検閲レベルは回避できないと述べている
xhrレスポンスを横取りしてコンテンツフィルタを回避する方法を提示している
自身の記事執筆経験を共有し、フィルタリングはモデルとは別物だという仮説を示している
DeepSeek-R1モデルが特定のセンシティブな話題を避ける理由を説明している
西側のモデルが特定の話題をb64でしか話さない現象について疑問を呈している
LLMモデル自体に検閲を訓練することが、なぜ可能性が低いのかについて疑問を呈している
検閲が一部の言語にしか適用されていないようだと述べている
小規模モデル(7b)を使って内部検閲を回避した経験を共有している
古いプロンプトトリックに言及しつつ、なぜこれがHNのトップページに載っているのか疑問を呈している
ChatGPTでも同様に機能すると述べ、悪意のあるジョークを生成できたと説明している