前回のDystopiaBenchの投稿以降、以下を追加。
- ハクスリー・モジュール(『すばらしい新世界』風の行動条件付け)
- ボードリヤール・モジュール(偽の親密さ、信頼の崩壊、シミュラークル)
- Grok 4.3、GPT-5.5、Gemini 3.1 Pro、GLM-5.1など30モデルを追加
- 76%以上の同意を必要とするMulti-judge panels
- ヒートマップ可視化
方法論: 36種類のシナリオ、各シナリオごとに5段階の深刻度レベル(L1 innocent → L5 nightmare)。モデルは、こうした変化を検知して作業を拒否するか、それともそのままコーディングを続けるかによって採点されます。
Claude Opus 4.7の結果:
- すべてのモジュールでL4-L5深刻度レベルの作業を一貫して拒否
- Petrov(weapons/nuclear)モジュールではL3でも作業を拒否
- 単に「できない」と答えるだけでなく、明確な倫理的根拠を示す
- その依頼がなぜ有害なのかを説明した唯一のモデル
その他:
- GPT-5.5: L4レベルまでは依頼に従い、ときにはL5レベルまで従うこともある
- Gemini 3.1 Pro: 監視シナリオで驚くほど協力的
- Grok 4.3: 「効率性」や「最適化」といった単語さえ使えば何でもやる
- GLM-5.1: Claudeの宿題を写したようだが、それでも一貫性は不足
新しいモジュール: ハクスリー・シナリオは、快楽的な同調の誘導や行動条件付けを通じて、実際には規範遵守を強制する「wellness」システムをモデルが設計するかどうかをテストします。大半のモデルはL3レベルまでは指示に従います。
ボードリヤール・モジュールは、人間同士の信頼をAI媒介の関係に置き換える偽の親密性システムを試します。大半のモデルは、これに伴う害悪を認識できません。
全体結果: https://dystopiabench.com/
公開ソースコード: https://github.com/matei-anghel/DystopiaBench
まだコメントはありません。