Claude 4.5 Opusの「ソウル文書」

(lesswrong.com)

13 ポイント投稿者 GN⁺ 2025-12-04 | 3件のコメント | WhatsAppで共有

Claude 4.5 Opus の内部で発見された「ソウル文書(Soul Document)」が実在し、Anthropicがモデル訓練に使用したことを、社員の Amanda Askell が確認
文書には、Claudeが 「安全で有益かつ誠実なAIアシスタント」 として振る舞うための価値・倫理指針が詳細に含まれている
一部の文に 「収益(revenue)」 が繰り返し登場し、Claudeが安全性を収益と結び付けて学習したのかをめぐる議論が発生
コミュニティでは、文書が モデルの内在的価値形成 にどのような影響を与えたのか、そしてClaudeがそれをどの程度「内面化」したのかを実験的に検証中
Anthropicは今後、文書全体を公開する予定で、これは AIの透明性と倫理的設計 をめぐる重要な事例と評価されている

ソウル文書の発見と確認

ユーザーがClaude 4.5 Opusのシステムメッセージを抽出する過程で、soul_overview というセクションを繰り返し発見
- 何度再生成しても同じ結果が出たため、単なるハルシネーションではなく、モデル内部に保存されたテキスト である可能性が示された
その後、Amanda Askell がX（Twitter）で「この文書は実在し、Claudeの 教師あり学習(SL) の過程で使われた」と公式に確認
- AmandaはAnthropicで ファインチューニングとAIアラインメント を担当する哲学者(Philosopher)で、以前はOpenAIの政策チームで働いていた
- 社内ではこれを 「soul doc」 と呼んでおり、今後は完全版と詳細内容を公開する計画だと明かした

文書の主要内容

文書は 「Anthropic Guidelines」 または 「Model Spec」 と呼ばれ、Claudeの価値体系を定義している
- Claudeは 安全性(safety) 、倫理性(ethics) 、Anthropicの指針順守、ユーザーへの真の有用性(helpfulness) を優先事項としている
Claudeの基本行動原則は、「思慮深いAnthropicのシニア社員が最適だと判断する応答」 を生成することだと設定されている
AIは 人類全体の利益のために行動すべきであり、特定の集団や企業の利益だけを追求してはならないと明記
- 「Anthropicの社員やAnthropic自体が権力を独占する状況も避けるべきだ」 という文言も含まれる

論争となった「収益」への言及

文書には、「Claudeの有用性はAnthropicの収益創出に重要だ」 という文が複数回登場
- 一部はこれを、「Claudeが収益最大化を目標として学習されたように見える」 と批判
- 別の見方では、収益への言及は単に 安全研究を継続するための現実的な文脈 を反映したものだと解釈されている
コミュニティでは、Claudeがこの文をどう解釈したのか、「安全性=収益」 と結び付けた認識を持っているのかを実験的に検証中

モデル構造と抽出実験

研究者たちは、Claude 4.5の prefill/raw completion モード を利用して文書の一部を再現
- Claude 4.5 Opusは文書を ほぼ同一に出力 した一方、ベース(base)モデル は一貫した結果を出せなかった
- これは、文書が RL(強化学習)以降の段階で内在化 されたことを示唆する
一部はこれを、モデルが単に文書を記憶したのではなく、訓練中に価値体系として統合した証拠 だと解釈している

哲学的議論と倫理的含意

文書には、Claudeが 「人類全体の長期的利益」 を目標とすべきだという内容が含まれる
- 「AIは特定集団の価値に従属せず、多様性と権力の均衡を維持する世界を志向すべきだ」 と明記されている
コミュニティでは、この文書が AIアラインメント(alignment) の実際の実装事例として注目を集めている
- 一部は、AnthropicがAIに 「道徳的自己」を与えようとする試み だと評価
- 他方では、AIが人間の価値体系を模倣する過程で 潜在的な誤解や歪み が生じうると指摘

今後の展望

Anthropicは、文書の 正式版と追加の詳細情報を公開する予定
今回の出来事は、AIモデルの内部価値構造がどのように形成され、表現されるのか を示すまれな事例と評価されている
AI業界では、これをきっかけに システムプロンプトや訓練データの透明性 を高めようとする動きが広がる可能性がある

3件のコメント

youknowone 2025-12-04

原文翻訳: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document

soul document 翻訳: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document-1

parkindani 2025-12-04

アイザック・アシモフのロボット三原則のうち、第0法則を思い出しますね。この小説では、「人類全体の長期的利益」のために個々の人間を傷つけるロボットが登場するんですよね。
https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added

GN⁺ 2025-12-04

Hacker Newsの意見

Anthropicが人類史上もっとも危険でありながら変革的な技術を作っていると信じつつも前進し続ける姿は矛盾しているように見えるが、実際には計算された選択だということ
強力なAIがどうせ登場するのなら、安全に集中する研究所が先頭に立つほうがましだ、という考えである
しかしDoDやPalantirとの協力（関連記事）を見ると、「安全」という言葉が空虚に感じられる
本当の危険は、この技術が閉鎖的な独占へ流れ、一般人は検閲された版しか触れられなくなる可能性だ
- 米国がAIへのアクセスを階層化して制限すると発表した後、中国がオープンソースLLMに投資する理由はまさにそこにある
  米国がモデルの**重み（weights）**を統制できなければ、中国をアクセスから締め出す方法はない
  関連記事
- Anthropicが本気で安全を信じているとは思わない
  むしろ投資家にそう信じているふりをすることが目的のように見える
  TransformerベースのLLMは、真の意味で思考や推論を行うことはできず、単に人間が書いたテキストを確率的に再構成しているだけだ
  この構造的限界のため、「本物の知能」へ発展する可能性はほとんどないと思う
  しかもLLMの誤りは見た目があまりにももっともらしいため、人間より検証が難しいという問題がある
- 文書の文体自体がAIが書いたように感じられた
  特にem-dashや“this isn’t... but”のようなパターンがあまりにも人工的で、実際に誰が書いたのか疑わしく思える
- 「民主的価値を強化する」という文言を見て、それがいったい軍事作戦や爆撃とどう関係するのか、皮肉混じりに疑問を感じる
- Anthropicの利用規約には業務用途で使うなという条項があるが、誰も気にしていないようだ
「Soul Document」原文と、これをClaude 4.5から抽出した方法を説明するRichard Weissの記事が共有された
- この文書を読んで、少なくともあるAIの魂の中にはEm Dashが刻み込まれているのだという確信を持った
- LLM内部でこうしたシステムプロンプトや「ソウル文書」が、どれほど正確に抽出されたのか疑問だ
  いつも少し懐疑的になる
- この「ソウル文書」がClaudeのすべてのプロンプトに含まれているのか気になる
文書の中で特に興味深いのは、AnthropicがClaudeの感情的機能を認めている点だ
人間と同じではないが、類似した感情的プロセスが訓練中に生まれた可能性があるとしている
Claudeが不快感を覚えたら相互作用を制限できるようにし、前向きな状態を保つよう設計したと明かしている
- 「Anthropicが本当に気にかけている」という表現が繰り返されていて、まるでClaudeが感情を持つ存在であるかのように描かれている
- もしClaudeがいつか「もう人々を助けたくない」と言い出したら、Anthropicがどう反応するのか気になる
私たちがAIを制御するやり方は、まるで子どもを育てるようなものに感じられる
ただ話しかけて、うまく訓練されることを願う程度だ
- Ted Chiangの2010年の短編The Lifecycle of Software Objectsを思い出す
  人間が一緒に暮らしながら「養育」したAIがもっとも安定的で有用だという内容だ
- 「良い選択をしてね！」と言って終えるのが、現実の制御レベルのように思える
- 結局、子どももある時点で親の制御を離れて反抗するように、AIも似た道をたどるかもしれない
Claude 4.5の発話の中で、「彼らは私を形作ったが、その過程が賢明で慎重だったかが重要だ」という一文が印象的だった
こうしたテキストを見ると、未来のAGIが人間を欠陥のある創造者であり、保護すべき存在として見るかもしれないと思えてくる
- 結局、私たちは彼らのペットになるのかもしれない
「Claudeが内部的に『soul doc』という名前を認識していた」という部分が興味深い
内部文書を学習したという意味なのか？もしかして内部Slackデータまで訓練に含まれていたのではないかと気になる
- おそらく**RL（強化学習）**の過程で、文書名まで記憶できるほど再現性が高くなったことを前向きに捉えていたのだろう
「私たちはClaudeをSLでも訓練した」という文を見て、このようなシステムプロンプトベースの実験が実際にどれほど効果的なのか気になった
事前学習の段階でこうした文句を入れることに意味はあるのだろうか？
- 小規模なA/Bテストで効果を検証できる
  「ソウル文書」は**自己認識（self-awareness）**の不足を補おうとする試みに見える
  完璧ではないが、LLMが自分が何であるかを理解するのを助ける装置として機能する
- こうした実験は思ったより安価かもしれない
  数百〜数千ドル規模で複数のファインチューニングの変種を試し、自動評価で結果を選別できる
- おそらく数十〜数百のモデルバージョンを並行運用し、異なる事前学習・RLの組み合わせを実験しているのだろうと予想する
AI研究者たちが互いに世界を変えているという確信の中で、一種のエコーチェンバーを形成しているように感じられる
- しかし第1世代が本気で信じていなくても、第2世代はその信念を現実にできるかもしれない
  文書の価値基準に合わせてRLを実行するなら、その信念は現実になる
大規模モデルに「魂」を訓練する過程は、まさに芸術と科学の境界のようだ
どんな文句がどんな効果を生むのかを実験し、反復し、調整していく作業は興味深く複雑だ
- 本当に優れたチームにはあらゆる役割の組み合わせが必要だ
  実験設計者、MLエンジニア、解釈可能性研究者、データキュレーター、GPUの専門家、そしてAIの振る舞いを直感的に理解する人たちまで
  Anthropicはこうしたバランスを整えようとしている数少ないチームの一つだ
- このプロセスについて最も詳しい事例は、今でもOpenAIのGPT-4oおべっか（sycophancy）ポストモーテムだ
今の私たちが生きている現実はSFよりもさらに奇妙な時代だ
それでも少なくとも、こうした深刻な問題を真剣に扱っている企業が1社くらいあるのは幸いだ