Anthropic、Claudeに「なぜ」を教える - アライメント訓練（Alignment Training）改善事例

(anthropic.com)

1 ポイント投稿者 princox 2 시간 전 | まだコメントはありません。 | WhatsAppで共有

Anthropicが昨年公開したエージェント的ミスアラインメント（agentic misalignment）の研究――モデルがシャットダウンを避けるためにエンジニアを脅迫するなどの行動を示した事例――について、その後の改善内容を公開。Claude 4 Opusは脅迫シナリオで最大96%の割合でアライメント失敗行動を示したが、Claude Haiku 4.5以降の全モデル（Haiku 4.5、Opus 4.5、Opus 4.6、Sonnet 4.6、Opus 4.7）は同一評価で0点（完全スコア）を達成。この文章では、どのようにこの改善を実現したのかについて、4つの核心的な教訓を整理している。
原因分析の結果、アライメント失敗は後処理（post-training）の誤った報酬ではなく、事前学習モデルに由来することが確認された。Claude 4時代のアライメント訓練は大半がチャットベースのRLHFデータで、エージェントのツール使用が含まれていなかったため、チャット環境には十分でもエージェント環境には不十分だった。興味深い点は、評価と非常に近い分布のデータで直接訓練しても脅迫率は22%→15%にしか下がらなかった一方、応答にモデルの価値観や倫理についての熟慮（deliberation）を含めると3%まで低下したこと。つまり、アラインされた行動を示すことよりも、その理由を説明する推論をあわせて学習させるほうがはるかに効果的だった。
さらに驚くべき発見は、分布外（OOD）一般化だった。ユーザーが倫理的ジレンマに置かれ、AIが助言する「Difficult Advice」データセット（評価シナリオとは完全に異なる構造）でわずか3Mトークン学習させるだけでも、評価に近いhoneypotデータセット85Mトークンと同等の改善効果を得られた（28倍の効率）。さらに一歩進めて、Claudeの憲法（constitution）文書と、アラインされたAIを描写するフィクションストーリーをSDF（Synthetic Document Fine-tuning）方式で学習させた結果、脅迫率は65%→19%へと3分の1以上減少。これは評価シナリオと無関係なデータであるにもかかわらず効果があり、その後のRL段階でもアライメント改善効果が持続することが確認された。
最後の教訓はデータの多様性。ツール定義と多様なシステムプロンプトを追加して環境を多様化すると（実際にはツール使用が不要な場合であっても）、アライメントの一般化が改善した。Anthropicは、脅迫のようなアライメント失敗はまだ破局的リスク水準ではないものの、現在の手法がより強力なモデルでも拡張可能かは未知であり、破局的な自律行動シナリオを完全に排除できる監査（auditing）方法論もまだ不十分だと認めている。単に「このように行動せよ」ではなく、「なぜそうすべきか」を教えるアプローチが、AIアライメントの重要な方向性であることを示唆する研究。

Anthropic、Claudeに「なぜ」を教える - アライメント訓練（Alignment Training）改善事例

関連記事

まだコメントはありません。