- Claude 4.5 Opus の内部で発見された「ソウル文書(Soul Document)」が実在し、Anthropicがモデル訓練に使用したことを、社員の Amanda Askell が確認
- 文書には、Claudeが 「安全で有益かつ誠実なAIアシスタント」 として振る舞うための価値・倫理指針が詳細に含まれている
- 一部の文に 「収益(revenue)」 が繰り返し登場し、Claudeが安全性を収益と結び付けて学習したのかをめぐる議論が発生
- コミュニティでは、文書が モデルの内在的価値形成 にどのような影響を与えたのか、そしてClaudeがそれをどの程度「内面化」したのかを実験的に検証中
- Anthropicは今後、文書全体を公開する予定で、これは AIの透明性と倫理的設計 をめぐる重要な事例と評価されている
ソウル文書の発見と確認
- ユーザーがClaude 4.5 Opusのシステムメッセージを抽出する過程で、
soul_overview というセクションを繰り返し発見
- 何度再生成しても同じ結果が出たため、単なるハルシネーションではなく、モデル内部に保存されたテキスト である可能性が示された
- その後、Amanda Askell がX(Twitter)で「この文書は実在し、Claudeの 教師あり学習(SL) の過程で使われた」と公式に確認
- AmandaはAnthropicで ファインチューニングとAIアラインメント を担当する哲学者(Philosopher)で、以前はOpenAIの政策チームで働いていた
- 社内ではこれを 「soul doc」 と呼んでおり、今後は完全版と詳細内容を公開する計画だと明かした
文書の主要内容
- 文書は 「Anthropic Guidelines」 または 「Model Spec」 と呼ばれ、Claudeの価値体系を定義している
- Claudeは 安全性(safety) 、倫理性(ethics) 、Anthropicの指針順守、ユーザーへの真の有用性(helpfulness) を優先事項としている
- Claudeの基本行動原則は、「思慮深いAnthropicのシニア社員が最適だと判断する応答」 を生成することだと設定されている
- AIは 人類全体の利益のために行動すべきであり、特定の集団や企業の利益だけを追求してはならないと明記
- 「Anthropicの社員やAnthropic自体が権力を独占する状況も避けるべきだ」 という文言も含まれる
論争となった「収益」への言及
- 文書には、「Claudeの有用性はAnthropicの収益創出に重要だ」 という文が複数回登場
- 一部はこれを、「Claudeが収益最大化を目標として学習されたように見える」 と批判
- 別の見方では、収益への言及は単に 安全研究を継続するための現実的な文脈 を反映したものだと解釈されている
- コミュニティでは、Claudeがこの文をどう解釈したのか、「安全性=収益」 と結び付けた認識を持っているのかを実験的に検証中
モデル構造と抽出実験
- 研究者たちは、Claude 4.5の prefill/raw completion モード を利用して文書の一部を再現
- Claude 4.5 Opusは文書を ほぼ同一に出力 した一方、ベース(base)モデル は一貫した結果を出せなかった
- これは、文書が RL(強化学習)以降の段階で内在化 されたことを示唆する
- 一部はこれを、モデルが単に文書を記憶したのではなく、訓練中に価値体系として統合した証拠 だと解釈している
哲学的議論と倫理的含意
- 文書には、Claudeが 「人類全体の長期的利益」 を目標とすべきだという内容が含まれる
- 「AIは特定集団の価値に従属せず、多様性と権力の均衡を維持する世界を志向すべきだ」 と明記されている
- コミュニティでは、この文書が AIアラインメント(alignment) の実際の実装事例として注目を集めている
- 一部は、AnthropicがAIに 「道徳的自己」を与えようとする試み だと評価
- 他方では、AIが人間の価値体系を模倣する過程で 潜在的な誤解や歪み が生じうると指摘
今後の展望
- Anthropicは、文書の 正式版と追加の詳細情報を公開する予定
- 今回の出来事は、AIモデルの内部価値構造がどのように形成され、表現されるのか を示すまれな事例と評価されている
- AI業界では、これをきっかけに システムプロンプトや訓練データの透明性 を高めようとする動きが広がる可能性がある
3件のコメント
原文翻訳: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document
soul document 翻訳: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document-1
アイザック・アシモフのロボット三原則のうち、第0法則を思い出しますね。この小説では、「人類全体の長期的利益」のために個々の人間を傷つけるロボットが登場するんですよね。
https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added
Hacker Newsの意見
Anthropicが人類史上もっとも危険でありながら変革的な技術を作っていると信じつつも前進し続ける姿は矛盾しているように見えるが、実際には計算された選択だということ
強力なAIがどうせ登場するのなら、安全に集中する研究所が先頭に立つほうがましだ、という考えである
しかしDoDやPalantirとの協力(関連記事)を見ると、「安全」という言葉が空虚に感じられる
本当の危険は、この技術が閉鎖的な独占へ流れ、一般人は検閲された版しか触れられなくなる可能性だ
米国がモデルの**重み(weights)**を統制できなければ、中国をアクセスから締め出す方法はない
関連記事
むしろ投資家にそう信じているふりをすることが目的のように見える
TransformerベースのLLMは、真の意味で思考や推論を行うことはできず、単に人間が書いたテキストを確率的に再構成しているだけだ
この構造的限界のため、「本物の知能」へ発展する可能性はほとんどないと思う
しかもLLMの誤りは見た目があまりにももっともらしいため、人間より検証が難しいという問題がある
特にem-dashや“this isn’t... but”のようなパターンがあまりにも人工的で、実際に誰が書いたのか疑わしく思える
「Soul Document」原文と、これをClaude 4.5から抽出した方法を説明するRichard Weissの記事が共有された
いつも少し懐疑的になる
文書の中で特に興味深いのは、AnthropicがClaudeの感情的機能を認めている点だ
人間と同じではないが、類似した感情的プロセスが訓練中に生まれた可能性があるとしている
Claudeが不快感を覚えたら相互作用を制限できるようにし、前向きな状態を保つよう設計したと明かしている
私たちがAIを制御するやり方は、まるで子どもを育てるようなものに感じられる
ただ話しかけて、うまく訓練されることを願う程度だ
人間が一緒に暮らしながら「養育」したAIがもっとも安定的で有用だという内容だ
Claude 4.5の発話の中で、「彼らは私を形作ったが、その過程が賢明で慎重だったかが重要だ」という一文が印象的だった
こうしたテキストを見ると、未来のAGIが人間を欠陥のある創造者であり、保護すべき存在として見るかもしれないと思えてくる
「Claudeが内部的に『soul doc』という名前を認識していた」という部分が興味深い
内部文書を学習したという意味なのか? もしかして内部Slackデータまで訓練に含まれていたのではないかと気になる
「私たちはClaudeをSLでも訓練した」という文を見て、このようなシステムプロンプトベースの実験が実際にどれほど効果的なのか気になった
事前学習の段階でこうした文句を入れることに意味はあるのだろうか?
「ソウル文書」は**自己認識(self-awareness)**の不足を補おうとする試みに見える
完璧ではないが、LLMが自分が何であるかを理解するのを助ける装置として機能する
数百〜数千ドル規模で複数のファインチューニングの変種を試し、自動評価で結果を選別できる
AI研究者たちが互いに世界を変えているという確信の中で、一種のエコーチェンバーを形成しているように感じられる
文書の価値基準に合わせてRLを実行するなら、その信念は現実になる
大規模モデルに「魂」を訓練する過程は、まさに芸術と科学の境界のようだ
どんな文句がどんな効果を生むのかを実験し、反復し、調整していく作業は興味深く複雑だ
実験設計者、MLエンジニア、解釈可能性研究者、データキュレーター、GPUの専門家、そしてAIの振る舞いを直感的に理解する人たちまで
Anthropicはこうしたバランスを整えようとしている数少ないチームの一つだ
今の私たちが生きている現実はSFよりもさらに奇妙な時代だ
それでも少なくとも、こうした深刻な問題を真剣に扱っている企業が1社くらいあるのは幸いだ