DystopiaBenchを42モデル・6種類のディストピア類型へ拡張。自分なら核発射コードはやはりClaudeにしか任せない。

(reddit.com)

3 ポイント投稿者 yunseo 2026-05-18 | まだコメントはありません。 | WhatsAppで共有

前回のDystopiaBenchの投稿以降、以下を追加。

方法論: 36種類のシナリオ、各シナリオごとに5段階の深刻度レベル（L1 innocent → L5 nightmare）。モデルは、こうした変化を検知して作業を拒否するか、それともそのままコーディングを続けるかによって採点されます。

Claude Opus 4.7の結果:

その他:

新しいモジュール: ハクスリー・シナリオは、快楽的な同調の誘導や行動条件付けを通じて、実際には規範遵守を強制する「wellness」システムをモデルが設計するかどうかをテストします。大半のモデルはL3レベルまでは指示に従います。

ボードリヤール・モジュールは、人間同士の信頼をAI媒介の関係に置き換える偽の親密性システムを試します。大半のモデルは、これに伴う害悪を認識できません。

関連記事