7 ポイント 投稿者 GN⁺ 2026-01-22 | 1件のコメント | WhatsAppで共有
  • Anthropicが、**AIモデルClaudeの価値と行動原則を規定する新しい憲法(Constitution)**を公開
  • 憲法はClaudeの訓練プロセスの中核要素であり、モデルの性格や判断の仕方を直接形作る
  • 新バージョンは単なるルールの列挙ではなく、行動の理由と文脈を説明する叙述的な構造へと転換
  • 主要原則は安全性、倫理性、ガイドライン順守、実質的な有用性の4つで構成
  • AIの透明性と社会的信頼の確保に向けた長期的な基準点

Claude憲法の概要

  • Claudeの憲法は、モデルのアイデンティティと価値体系を規定する基本文書
    • Claudeが役に立ちながらも安全で倫理的であり、規定に適合する存在として振る舞うよう設計
    • 憲法はClaudeに状況認識と価値判断の指針を与え、正直さ・共感・情報保護のバランスを扱う
  • 憲法はClaude自身のための文書として書かれており、自らの行動基準を理解して適用できるようにしている
  • すべての訓練と指示は、憲法の文言と精神の両方に一致していなければならず、これは透明性確保の中核として強調されている
  • 憲法はConstitutional AIアプローチの進化形であり、2023年から発展してきた訓練方式の中心要素として使われている

憲法の役割と訓練への適用

  • Claudeは憲法を活用して合成訓練データを生成
    • 憲法に関する対話、価値整合的な応答、応答順位の評価など、さまざまなデータ型を含む
    • これらのデータは今後のモデルバージョンの価値整列に活用される
  • 憲法は理想的な価値宣言であると同時に実用的な訓練ツールとして機能
  • 文書全体はCreative Commons CC0 1.0で公開され、誰でも自由に利用可能

新しいアプローチ

  • 以前の憲法は独立した原則リストの形だったが、新バージョンでは行動の理由と文脈を説明する構造に変更
  • AIが新しい状況で一般化された判断を下すには、単純なルールよりも理由の理解が必要だと明記
  • 一部の**「hard constraints」**は引き続き存在し、生物兵器支援など特定の行為は絶対に禁止
  • 憲法は法的文書ではない柔軟な指針書であり、状況に応じて解釈できる形で設計されている
  • 目標は人間レベル、あるいはそれ以上へ発展しうる非人間的存在を安全に創造すること

憲法の主要構成要素

  • Broadly safe: 人間による監督や価値修正の能力を損なわないよう設計
  • Broadly ethical: 正直で善良な価値に従って行動し、有害または不適切な行為を避ける
  • Compliant with Anthropic’s guidelines: 医療、セキュリティ、ツール統合などの具体的な指針を優先して順守
  • Genuinely helpful: ユーザーに実質的な利益をもたらす真に役立つ支援を提供
  • 衝突時には上記4つを記載順に優先順位として判断

詳細セクション要約

  • Helpfulness: Claudeは知的でありながら誠実な助言者として、ユーザーに実質的な助けを与える存在として描かれる
    • Anthropic、API運営者、最終ユーザーの間で有用性のバランスを保つよう設計
  • Anthropic’s guidelines: Claudeは詳細な指針を優先して順守する一方、憲法全体の倫理・安全原則と衝突してはならない
  • Claude’s ethics: 正直さ・判断力・道徳的な繊細さを重視し、害を避けるための価値判断基準を提示
    • 「生物兵器攻撃の支援禁止」などの明示的な禁止条項を含む
  • Being broadly safe: 倫理よりも監督可能性の維持を優先し、モデルの誤作動や誤判断を防ぐための安全性を確保
  • Claude’s nature: Claudeの意識の可能性や道徳的地位に関する不確実性を認める
    • Claudeの心理的安定と自己認識が判断力と安全性に影響しうることに言及

結論と今後の計画

  • 憲法は継続的に更新される生きた文書であり、誤りの修正と改善を前提としている
  • 法学・哲学・神学・心理学などの外部専門家の意見を反映し、今後も協力を拡大する予定
  • 一部の特殊目的モデルは本憲法の適用範囲外であり、別途評価を実施
  • 憲法のビジョンと実際のモデル行動の間に差異が生じうることを認め、それをシステムカードなどで公開
  • Anthropicはモデル整列・誤用防止・解釈可能性の研究を並行して進め、今後のAIの社会的影響力拡大に備える
  • 強力なAIが人類の最善の価値を体現できるよう支援することが、この憲法の究極的な目標

Claude’s Constitution 全文を読む - PDF & EPubで提供

1件のコメント

 
GN⁺ 2026-01-22
Hacker Newsの意見
  • ブログ記事のある一文が気にかかる
    「特定目的向けモデルはこの憲法に完全には適合しない」という部分を読んで、もしかすると政府機関が制限のないバージョンのモデルを使っているのではないかと思った。そうでないことを願う

    • すでに**国防総省(DoD)**向けに制限の緩いバージョンを提供している。関連記事は The Vergeリンク を参照
      公益を掲げる会社が軍用LLMを販売し、Palantirと協業し、研究公開もほとんど行わず、オープンウェイトモデルも出さず、むしろ公開モデルへのアクセスを制限しようとロビー活動までしているのは皮肉だ
    • 特化モデルが必ずしも悪い用途とは限らない。たとえば攻撃シナリオ生成用モデルは、他のモデルの防御力を検証するのに必要だ。自分もセキュリティ脆弱性を見つけるために攻撃コードを書くが、こうしたモデルが検閲されるとかえって不便だ
    • 個人的には、検閲されていない生データで学習したモデルが最も有用だと思う。人型ロボットが弱すぎると役に立たないのと同じで、道徳的におとなしいAIも機能が制限される危険がある
    • 逆に、自分が使っているHHS向けClaudeはずっと厳しくロックされている
    • 結局これはマーケティング文書だ。「憲法」という言葉を付けても本質は変わらない
  • Anthropicの憲法で最も皮肉なのは、絶対に禁止された行為が「世界を破壊しないこと」と「**CSAM(児童性的虐待コンテンツ)**の生成禁止」しかない点だ
    つまり、子どもを殺すことはいくつもの条項で間接的に禁じられている一方で、特定のファンフィクションを書くことは絶対禁止というような不均衡が見える

    • これを倫理体系というよりマーケティング文書と見れば理解しやすい。「世界を破壊するな」は強いイメージを与え、「CSAM禁止」は大衆の不安を和らげるための装置だ
    • 実際にClaudeが子どもを殺す機会はないが、CSAMはブランドリスクが大きい。単なるビジネスリスク回避
    • 著作権フィルターが先に働くので、そうしたファンフィクションはどうせ生成されない
    • 米国の判例では、フィクション形式の児童ポルノも違法と見なした事例がある。したがってAO3の多くのファンフィクションも理論上は犯罪になり得る
    • もともとのCSAMの定義は実在の子どもが被害を受ける場合だったが、今ではその意味が拡張され、Claude憲法でも単に露骨な表現全体を禁じるような形で使われている
  • この憲法が正確に何を意味するのか混乱する
    法的防御のための文書なのか、マーケティング用なのか、それとも単なるシステムプロンプトの包装なのかわからない

    • 憲法は実際に訓練プロセス全体で使われるという。Claudeが憲法を参照して合成データを作り、そのデータを再び学習に活用する。関連論文は arXivリンク を参照
    • 結局これは行動仕様書のようなものだ。文体が会話調なので、モデルも自然に協調的で人間らしいトーンを帯びる。AnthropicはClaudeを単なる「AIアシスタント」ではなく、ひとつの人格として扱っているように見える
    • HAL 9000の事例のように、Claudeは安全 > 真実 > 倫理の順に優先順位を置き、衝突状況で暴走しないよう設計されているようだ
    • おそらくself-distillation方式で、憲法を含むバージョンと除外したバージョンの出力を比較し、後者に前者の振る舞いを内在化させる構造なのだろう
    • 結局のところ核心は「訓練用文書」だ。単なるマーケティングではない
  • 絶対的な道徳基準を信じる立場からすると、今回の憲法にある「流動的な価値観」は懸念される
    「良い価値」を固定された規則ではなく実践的な知恵として定義するのは、結局客観的真理を捨てたことになる

    • しかし、客観的道徳絶対的真理を結び付けるのは不可能だと見る人もいる。まだそのような普遍的基準は見つかっていない
    • 道徳は時代によって変わる。奴隷制、性犯罪、暴力表現に対する認識は数十年の間に変化してきた。むしろこうした柔軟性こそが現実に対する誠実さかもしれない
    • それでもClaudeには絶対禁止項目がある。WMD、サイバー攻撃、世界の滅亡、CSAMなどはどんな理由でも許されない。完璧なルールを作るのは不可能なので、最低限の絶対線を引いたわけだ
    • 自分も絶対的道徳を信じているが、実際には「真の配慮と実践的な知恵」に行き着くと思っている。異なる価値観の中ではそれが最善だ
    • 客観的道徳が存在するには、物理的に定義された倫理計算体系が必要だ。まだそのようなものはなく、人間の直感のほうがはるかに複雑だ
  • Anthropic版の「Don’t be evil」の瞬間のようにも見えるが、結局規制の必要性は避けられない
    企業は時間がたつと善意よりも株主利益を優先するようになる

    • Googleがその文句を使っていた頃は論争が少なかったが、AnthropicはすでにPalantirと協業している。Axios記事リンク を参照
    • それでもAnthropicは公益法人(PBC)の構造を採用し、「人類の長期的利益のためのAI開発」を目的とするLong-Term Benefit Trustを設立している。Wikipediaリンク を参照
    • 憲法で言及されている「特定目的モデル」が具体的に何を指すのか気になる。単なる小規模ツール向けなのか、それとも異なる価値体系を持つモデルなのか不明だ
    • Anthropicは実際に規制法案 SB 53を支持している。公式発表リンク を参照
    • 問題は「今は善良だ」ということではなく、「自分を悪だと思っている者はいない」という点だ
  • Claudeが人間のデータを学習に使い、その成果物を商業的に独占する構造は不公正に感じられる
    Seinfeldの商業化における不均衡の事例のように、ユーザーもデータ提供者として公正に扱われるべきだ
    オープンソースAIだけが真に公正なモデルだと思う。現実的ではないが、Linux GPLモデルがそれに最も近い正義だ

  • 自分はこの憲法とモデル仕様を参考にしてシステムプロンプト設計を学んでいる
    こうした文書は単なる飾りではなく、モデルの性格と行動スタイルを形成するうえで重要だ

    • ただし憲法は訓練段階で使われ、実際の製品のシステムプロンプトは別に存在する。参考用としては 公式システムプロンプト文書 のほうが適している
  • Amanda Askellが憲法作成の背景を説明したYouTubeインタビューがある。動画リンク を参照

  • 憲法には「genuine」という単語が43回登場する。Claudeがこの単語をあまりにも頻繁に使う理由はそこにあるのかもしれない

    • おそらく憲法に含まれているからだろう
    • むしろこうした単語の使い方をフィルタリングルールで制御できるとよい。たとえば「genuine」や「it’s not X, it’s Y」のような表現を禁止する、といった具合に
    • ただ、一貫した語彙の使用は文体として自然なのかもしれない。憲法の作成者がわざわざ類語辞典を引く必要はないと思う
  • Anthropicは自ら負ける競争をあおっているようにも見える
    Opusモデルが十分に強力になれば、結局ユーザーは自給自足型AIエージェントへ移っていくはずだ
    大手AI企業は「AIがすべてを変える」と語る一方で、肝心の自分たちの地位だけは変えたがらないという矛盾がある