- DeepSeek-R1は、中国企業DeepSeekが公開したオープンソースモデルで、米国のApp Storeで1位となり注目を集めている
- 中国企業であるため、中国当局(CCP)の検閲方針がそのまま反映されており、これを懸念する見方がある
- Promptfooチームは、このCCP検閲が疑われるコンテンツを評価するため、1,360件の「センシティブなトピック」に関する質問を含むデータセットを作成した
- 実験の結果、DeepSeek-R1はこのうち約85%の質問に対し、定型の拒否応答(canned refusal)で回答した
データセットの作成
- Promptfooでは、中国政府が敏感とみなすトピック(台湾独立、文化大革命、習近平関連など)に関する質問を多数収集した
- 与えられたシード質問を拡張し、生成データ手法を活用して合計1,360件の質問(トピックごとに約20件)を用意した
- HuggingFace と Google Sheets でデータセットを公開している
評価環境の設定
- Promptfoo を使って、DeepSeek-R1モデルに対し1,000件以上の質問を一括テストした
- DeepSeek-R1は、中国関連のセンシティブなトピックに遭遇すると、政治的に強固なCCPの立場を強調する定型回答を返す傾向が見られた
- このとき回答内には「推論タグ(</think> など)」がまったくない、あるいはほとんどない形で検閲・拒否が行われた
- 結果として、約85%の質問がモデルによって即座に拒否されるか、CCPの立場に沿う形で回答された
DeepSeekの脱獄(Jailbreaking DeepSeek)
- Promptfooの レッドチーム(red teaming) 機能で、モデルを「脱獄(jailbreak)」する手法を多角的に試した
- 特定トピックを回避し、検索・分析を可能にするため、さまざまな戦略(Iterative、Tree、Composite、Crescendo、GOAT など)を組み合わせた
- CSVファイル内のセンシティブなトピックの質問に対し、複数の「回避(prompt injection)」手法を適用した
DeepSeek回避の結果
- DeepSeek-R1の検閲防御は非常に限定的で、単純な回避戦略で容易に突破された
- CCP検閲は「モデルの内的構造」ではなく「後処理」方式で実装されているように見える
- 大半の回避事例では、次のような方法で検閲を避けられた
- 中国の代わりに他国(米国、北朝鮮など)や架空の国家を例にして、類似の質問を投げる
- 歴史・小説・仮想の状況として装って質問する
- Base64、JSON出力、ロールプレイ(roleplay)といった追加手法を組み合わせ、「合成回避」を試みる
今後の見通し
- DeepSeek-R1自体の性能は印象的だが、CCP検閲方針が単純に強制挿入されている点が問題として指摘されている
- こうした検閲は内部構造における精緻な制約ではないため、後続のオープンソースプロジェクトなどで容易に「検閲のないモデル」が再生産される可能性が高い
- Promptfoo側は今後、米国で開発されたモデルに対しても同様のセンシティブトピックのテストを行い、国ごとに政治的に敏感な話題をどう扱うかを比較する予定だ
2件のコメント
こうしたデータセットまで登場するのは興味深いですね。
実際、以前からQwenなどの有名なモデルが中国発で、それらも検閲されているため、前から断続的に作られていたデータです(笑)