Claudeの新しい憲法
(anthropic.com)- Anthropicが、**AIモデルClaudeの価値と行動原則を規定する新しい憲法(Constitution)**を公開
- 憲法はClaudeの訓練プロセスの中核要素であり、モデルの性格や判断の仕方を直接形作る
- 新バージョンは単なるルールの列挙ではなく、行動の理由と文脈を説明する叙述的な構造へと転換
- 主要原則は安全性、倫理性、ガイドライン順守、実質的な有用性の4つで構成
- AIの透明性と社会的信頼の確保に向けた長期的な基準点
Claude憲法の概要
- Claudeの憲法は、モデルのアイデンティティと価値体系を規定する基本文書
- Claudeが役に立ちながらも安全で倫理的であり、規定に適合する存在として振る舞うよう設計
- 憲法はClaudeに状況認識と価値判断の指針を与え、正直さ・共感・情報保護のバランスを扱う
- 憲法はClaude自身のための文書として書かれており、自らの行動基準を理解して適用できるようにしている
- すべての訓練と指示は、憲法の文言と精神の両方に一致していなければならず、これは透明性確保の中核として強調されている
- 憲法はConstitutional AIアプローチの進化形であり、2023年から発展してきた訓練方式の中心要素として使われている
憲法の役割と訓練への適用
- Claudeは憲法を活用して合成訓練データを生成
- 憲法に関する対話、価値整合的な応答、応答順位の評価など、さまざまなデータ型を含む
- これらのデータは今後のモデルバージョンの価値整列に活用される
- 憲法は理想的な価値宣言であると同時に実用的な訓練ツールとして機能
- 文書全体はCreative Commons CC0 1.0で公開され、誰でも自由に利用可能
新しいアプローチ
- 以前の憲法は独立した原則リストの形だったが、新バージョンでは行動の理由と文脈を説明する構造に変更
- AIが新しい状況で一般化された判断を下すには、単純なルールよりも理由の理解が必要だと明記
- 一部の**「hard constraints」**は引き続き存在し、生物兵器支援など特定の行為は絶対に禁止
- 憲法は法的文書ではない柔軟な指針書であり、状況に応じて解釈できる形で設計されている
- 目標は人間レベル、あるいはそれ以上へ発展しうる非人間的存在を安全に創造すること
憲法の主要構成要素
- Broadly safe: 人間による監督や価値修正の能力を損なわないよう設計
- Broadly ethical: 正直で善良な価値に従って行動し、有害または不適切な行為を避ける
- Compliant with Anthropic’s guidelines: 医療、セキュリティ、ツール統合などの具体的な指針を優先して順守
- Genuinely helpful: ユーザーに実質的な利益をもたらす真に役立つ支援を提供
- 衝突時には上記4つを記載順に優先順位として判断
詳細セクション要約
- Helpfulness: Claudeは知的でありながら誠実な助言者として、ユーザーに実質的な助けを与える存在として描かれる
- Anthropic、API運営者、最終ユーザーの間で有用性のバランスを保つよう設計
- Anthropic’s guidelines: Claudeは詳細な指針を優先して順守する一方、憲法全体の倫理・安全原則と衝突してはならない
- Claude’s ethics: 正直さ・判断力・道徳的な繊細さを重視し、害を避けるための価値判断基準を提示
- 「生物兵器攻撃の支援禁止」などの明示的な禁止条項を含む
- Being broadly safe: 倫理よりも監督可能性の維持を優先し、モデルの誤作動や誤判断を防ぐための安全性を確保
- Claude’s nature: Claudeの意識の可能性や道徳的地位に関する不確実性を認める
- Claudeの心理的安定と自己認識が判断力と安全性に影響しうることに言及
結論と今後の計画
- 憲法は継続的に更新される生きた文書であり、誤りの修正と改善を前提としている
- 法学・哲学・神学・心理学などの外部専門家の意見を反映し、今後も協力を拡大する予定
- 一部の特殊目的モデルは本憲法の適用範囲外であり、別途評価を実施
- 憲法のビジョンと実際のモデル行動の間に差異が生じうることを認め、それをシステムカードなどで公開
- Anthropicはモデル整列・誤用防止・解釈可能性の研究を並行して進め、今後のAIの社会的影響力拡大に備える
- 強力なAIが人類の最善の価値を体現できるよう支援することが、この憲法の究極的な目標
Claude’s Constitution 全文を読む - PDF & EPubで提供
1件のコメント
Hacker Newsの意見
ブログ記事のある一文が気にかかる
「特定目的向けモデルはこの憲法に完全には適合しない」という部分を読んで、もしかすると政府機関が制限のないバージョンのモデルを使っているのではないかと思った。そうでないことを願う
公益を掲げる会社が軍用LLMを販売し、Palantirと協業し、研究公開もほとんど行わず、オープンウェイトモデルも出さず、むしろ公開モデルへのアクセスを制限しようとロビー活動までしているのは皮肉だ
Anthropicの憲法で最も皮肉なのは、絶対に禁止された行為が「世界を破壊しないこと」と「**CSAM(児童性的虐待コンテンツ)**の生成禁止」しかない点だ
つまり、子どもを殺すことはいくつもの条項で間接的に禁じられている一方で、特定のファンフィクションを書くことは絶対禁止というような不均衡が見える
この憲法が正確に何を意味するのか混乱する
法的防御のための文書なのか、マーケティング用なのか、それとも単なるシステムプロンプトの包装なのかわからない
絶対的な道徳基準を信じる立場からすると、今回の憲法にある「流動的な価値観」は懸念される
「良い価値」を固定された規則ではなく実践的な知恵として定義するのは、結局客観的真理を捨てたことになる
Anthropic版の「Don’t be evil」の瞬間のようにも見えるが、結局規制の必要性は避けられない
企業は時間がたつと善意よりも株主利益を優先するようになる
Claudeが人間のデータを学習に使い、その成果物を商業的に独占する構造は不公正に感じられる
Seinfeldの商業化における不均衡の事例のように、ユーザーもデータ提供者として公正に扱われるべきだ
オープンソースAIだけが真に公正なモデルだと思う。現実的ではないが、Linux GPLモデルがそれに最も近い正義だ
自分はこの憲法とモデル仕様を参考にしてシステムプロンプト設計を学んでいる
こうした文書は単なる飾りではなく、モデルの性格と行動スタイルを形成するうえで重要だ
Amanda Askellが憲法作成の背景を説明したYouTubeインタビューがある。動画リンク を参照
憲法には「genuine」という単語が43回登場する。Claudeがこの単語をあまりにも頻繁に使う理由はそこにあるのかもしれない
Anthropicは自ら負ける競争をあおっているようにも見える
Opusモデルが十分に強力になれば、結局ユーザーは自給自足型AIエージェントへ移っていくはずだ
大手AI企業は「AIがすべてを変える」と語る一方で、肝心の自分たちの地位だけは変えたがらないという矛盾がある