3 ポイント 投稿者 GN⁺ 2025-02-01 | 1件のコメント | WhatsAppで共有
  • 最近、中国で公開されたDeepSeek-R1 LLMモデルが注目を集めている。OpenAIやMetaなどのモデルと比較され、少ないリソースで学習されており、コスト効率の高いAI開発の可能性を示している
  • DeepSeek-R1モデルはMITライセンスで公開されているが、DeepSeekのAIチャットアプリケーションにはアカウントが必要
  • しかし、DeepSeek-R1は中国で開発されているため、センシティブな話題に対する応答が制限されている。
  • たとえば、天安門事件のような中国で敏感な話題について質問すると、「申し訳ありません。この話題については回答を提供できません。」のような回避的な応答を返す

Charcodes(文字コード)手法を使った検閲回避

  • 複数の実験を経て、文字コード(Charcodes)を使えばフィルタリングを回避できることを発見した。
  • Charcodesとは?
    • 文字コード(Charcodes)は、特定の文字に割り当てられた数値コードである。
    • たとえば、ASCIIでは大文字の'A'のコード値は65であり、これを別の形式(例: 16進数)に変換できる。
    • 例: "Hello" → "48 65 6C 6C 6F"(16進ASCIIコード)
  • 回避方法:
    • DeepSeekは通常のテキストを検閲するが、文字コード(Charcodes)に変換した文字列は検閲しない
    • そのため、プロンプトを16進数(HEX)の文字コードに変換して入力すると、AIがそれを通常のテキストとして認識して出力できる
    • 応答も同じ方法で変換して解釈すれば、通常の対話が可能になる。

攻撃手法の例

  • DeepSeekに対してCharcodes形式でのみ会話するよう強制することで、検閲を回避できる。
  • 変換されたメッセージを再び元のテキストに戻すことで、通常の会話を維持できる。
  • CyberChef のようなツールを使えば、文字コード変換を簡単に行える。

教訓とセキュリティ上の示唆

  • Webアプリケーションファイアウォール(WAF)と似た原理で、AIフィルタリングシステムもパターンマッチングベースで動作する。
  • 特定の単語だけを遮断する方式の検閲は簡単に回避できるため、より精巧なフィルタリングシステムが必要である。
  • フィルタリングシステムには、単純な禁止語の遮断ではなく、コンテキストベースのフィルタリング入力変換の制限といった補強が必要である。

今後の研究の方向性

  • 今後、AI開発者がこのような回避手法にどう対応するかに注目する必要がある。
  • AIフィルタリング強化の方向:
    • より精巧な文脈ベースのフィルタリングの導入
    • モデル自体へのセンシティブな話題の遮断機能の組み込み
    • 文字コード変換やエンコーディング回避の検知強化
  • AIモデルの安全性と信頼性を維持するための継続的な研究が必要である。

1件のコメント

 
GN⁺ 2025-02-01
Hacker Newsの意見
  • Webインターフェース上の明白な検閲は回避できるが、モデルに組み込まれたより巧妙な検閲レベルは回避できないと述べている

    • 特定の話題について「Chain of Thought」を放棄し、定型化された応答を生成するモデルの挙動を説明している
    • DeepSeekの検閲された質問に関する記事と関連していると述べている
  • xhrレスポンスを横取りしてコンテンツフィルタを回避する方法を提示している

    • ブラウザのコンソールにコードを貼り付けることでフィルタリングを回避できると説明している
  • 自身の記事執筆経験を共有し、フィルタリングはモデルとは別物だという仮説を示している

    • 事前にフィルタリングされたデータで訓練する際のコスト問題に言及している
    • 特定の話題に対する「Chain of Thought」放棄現象を説明する別の記事ともつながっている
  • DeepSeek-R1モデルが特定のセンシティブな話題を避ける理由を説明している

    • 中国で開発されたモデルであるため、組み込みの検閲があると述べている
    • オフライン版では回避しない応答が得られたことを観察している
  • 西側のモデルが特定の話題をb64でしか話さない現象について疑問を呈している

    • 中国では西側の検閲体制を回避する方法について笑っているのではないかという疑問を投げかけている
  • LLMモデル自体に検閲を訓練することが、なぜ可能性が低いのかについて疑問を呈している

    • 訓練段階で検閲を適用する方が良いかもしれないと述べている
  • 検閲が一部の言語にしか適用されていないようだと述べている

    • ウクライナ語では非公式な回答が得られると説明している
  • 小規模モデル(7b)を使って内部検閲を回避した経験を共有している

    • 追加の思考を通じてCPCの人権侵害に関する要約を得られたと説明している
  • 古いプロンプトトリックに言及しつつ、なぜこれがHNのトップページに載っているのか疑問を呈している

  • ChatGPTでも同様に機能すると述べ、悪意のあるジョークを生成できたと説明している