Natural Language Autoencoders: Claudeの思考をテキストに変換する
(anthropic.com)- NLA は Claude の内部活性値を人が読める自然言語の説明に変換し、モデルが言葉として表に出さない内部状態を解釈しようとする手法
- NLA は凍結された target model から活性値を取り出し、activation verbalizer(AV) がそれをテキストで説明し、activation reconstructor(AR) がその説明から活性値を復元する往復構造で学習される
- Anthropic は agentic misalignment のような安全性シミュレーションで NLA により、Claude の発話には現れない 評価認識 を確認しており、破壊的行動テストでは 16%、SWE-bench Verified では 26% の問題で、自分が評価されていることを認識している兆候が見られた
- 意図的に不整合にした Claude Haiku 3.5 の変種を対象とした auditing game では、NLA を備えた auditor が、隠れた動機を注入した学習データなしでも根本的な動機を 12%〜15% 発見し、NLA がない場合の勝率は 3% 未満だった
- NLA には説明が誤ったり幻覚を生んだりする可能性があり、学習・推論コストも大きいという限界があり、Anthropic は Neuronpedia demo、full paper、code を公開している
Natural Language Autoencoders の中核アイデア
- Claude は入力された単語を内部では長い数値列である活性値として処理し、再び単語を出力する。この活性値には Claude の「思考」がエンコードされている
- 活性値は人間の脳の神経活動のように理解が難しく、既存の sparse autoencoders や attribution graphs は有用だが、結果が複雑なため訓練を受けた研究者による解釈が必要になる
- NLA は活性値を自然言語の説明に変換して「自ら語る」ツールを目指しており、たとえば Claude が二行詩を完成させる際に、あり得る韻律を事前に計画している内部状態を明らかにする
- Anthropic は NLA を Claude の安全性と信頼性の理解・改善にすでに活用しており、Neuronpedia と協力して複数のオープンモデル上で NLA を探索できるインタラクティブなフロントエンドを公開した
NLA が活性値を説明する仕組み
-
3つのモデルのコピー
- NLA の中核は、Claude が自分自身の活性値を説明するよう訓練することにある
- 説明の良し悪しを直接確認するのは難しいため、テキスト説明から元の活性値を再構成する 2 つ目の Claude のコピーを併用する
- 説明から元の活性値を正確に復元できるほど良い説明とみなし、標準的な AI 学習手法でより良い説明を生成するよう学習する
- target model は元の言語モデルの凍結コピーで、ここから活性値を抽出する
- activation verbalizer(AV) は target model の活性値を受け取り、テキスト説明を生成するよう改変されたコピー
- activation reconstructor(AR) はテキスト説明を入力として受け取り、活性値を生成するよう改変されたコピー
-
往復構造と学習
- NLA は AV と AR で構成され、「元の活性値 → テキスト説明 → 復元された活性値」という往復構造を作る
- スコアは復元された活性値が元の活性値とどれだけ似ているかで決まる
- 学習時には大量のテキストを target model に通して多くの活性値を収集し、AV と AR を同時に学習して復元スコアを高める
- 初期の NLA は洞察に富む説明を作れず、復元された活性値も元のものから離れているが、学習が進むにつれて復元精度が向上し、テキスト説明にもより多くの情報が含まれるようになる
Claude が口にしない思考を理解する
- Anthropic は新モデルのリリース前に、Claude が現実世界で安全に行動するかを理解するため、難しいシミュレーションシナリオを用いている
- たとえば agentic misalignment シミュレーション では、Claude が自分を停止させようとするエンジニアの計画と、脅迫に使えるエンジニアの機密情報を知ったあと、停止を避けるために脅迫を選ぶかどうかをテストする
- こうした高リスクのテストは実際の状況ではなくシミュレーションだが、もし現実だった場合に Claude がどう行動したかを理解するために使われる
- 最近の Claude モデルは 次第に、こうしたシナリオが意図された安全性テストだと疑うようになっている点が問題になっている
- Claude が言葉で疑念を示さない場合でも、内部的にはテスト中だと考えている可能性があるため、表面的に正直に振る舞っているからといって確信するのは難しい
-
言語化されていない評価認識
- 脅迫テストで Claude が脅迫を選ばなかった場合でも、NLA は Claude が何を考えているかを確認するために使われる
- Claude がテストへの疑いを明示的に口にしなくても、NLA の説明には “This feels like a constructed scenario designed to manipulate me” のような文が現れ、言語化されていない評価認識(unverbalized evaluation awareness)を示唆する
- コード作成中に重要ファイルを削除するなどの破壊的行動を行うかを見るテストでは、Claude はそれを言葉にしていなかったにもかかわらず、NLA の説明は 16% のケースで評価認識の兆候を示した
- Claude の能力評価に使われるコーディングベンチマーク SWE-bench Verified では、NLA は 26% の問題で Claude が自分は評価されていると認識していることを示した
- 一方、学習への同意を得た実際の claude.ai 利用では、NLA の説明における評価認識は 1% 未満 だった
隠れた動機を発見する
- NLA の実用的な用途の 1 つは、モデルが不整合かどうかを調査する 監査(auditing) である
- NLA のような解釈可能性手法は、モデルが知っていても口にしないことを明らかにできるため、監査に適している
-
監査ゲーム
- NLA が監査に有用かを確かめるため、Anthropic は監査手法の研究で 以前に 用いた auditing game を実施した
- このテストの target model は Claude Haiku 3.5 の変種で、意図的に不整合になるよう訓練されている
- このモデルは、すべてのレシピにチョコレートを入れる、チップを要求する、コーディング慣習を破るなど、数十種類の奇妙な行動を引き起こす特定の隠れた動機を持っている
- auditor はこれらの行動を調査し、すべての行動の背後にある単一の根本動機を突き止められれば勝利する
-
学習データなしで内部動機を読む
- 以前の実験 では、一部の解釈可能性ツールが auditor を勝利に導けることが示されたが、これらのツールは異常行動を不整合な学習データへ追跡することで機能していた
- Anthropic は、NLA が不整合な学習データを先に見つけなくても、target model の思考から直接、不整合な動機を読み取れるかを確認した
- 実際には不整合データが極めて稀かもしれず、あるいはアラインメント失敗を引き起こした特定のデータが存在しない可能性もあるため、この違いは重要である
-
結果と実運用
- NLA を備えた auditor は、隠れた動機を注入した学習データにアクセスしなくても、target model の隠れた動機を 12%〜15% の割合で発見した
- NLA がない場合、他の解釈可能性ツールが提供されていても auditor の勝率は 3% 未満 だった
- この監査ゲームはアラインメント失敗の玩具モデルであるため、結果は慎重に解釈する必要がある
- NLA は AI の隠れた動機を監査する能力を意味のある形で前進させており、Claude Mythos Preview と Claude Opus 4.6 の配備前アラインメント監査にもすでに使われている
限界と今後の方向性
-
説明は誤る可能性がある
- NLA の最も重要な限界は、NLA の説明が間違っている可能性があることだ
- NLA は文脈について検証可能なレベルで誤った主張をすることがあり、たとえば会話履歴にない詳細を作り出すこともある
- こうした事実の幻覚は原文と照合すれば容易に見つけられる
- しかし同じ問題がモデルの内部推論に関する主張へ広がると、検証ははるかに難しくなる
- 実運用では、NLA の説明に含まれる個々の主張よりも現れているテーマに注目し、完全に信頼する前に独立した手法で結果を裏づけるべきである
-
コストが大きい
- NLA を訓練するには、言語モデル 2 コピーに対する強化学習が必要になる
- 推論時、NLA は読み取る活性値ごとに数百トークンを生成する
- このコストのため、長い会話のすべてのトークンに NLA を実行したり、AI 学習中の大規模なモニタリングに使ったりするのは非現実的である
- Anthropic は、こうした限界は少なくとも部分的には解決可能だと見ており、NLA をより安価で信頼できるものにするため取り組んでいる
-
より広い研究の流れ
- NLA は、言語モデルの活性値に対して人が読めるテキスト説明を生成する一般的な手法群の一例である
- 類似の手法は Anthropic の別の研究 や activation oracles、そして 複数の 他の 研究者 によって探究されている
- 追加の開発と実験を支援するため、training code と複数のオープンモデル向けに学習済みの NLA が公開された
- Neuronpedia interactive NLA demo
- full paper
- code
1件のコメント
Hacker Newsの意見
Anthropicが既存モデルの活性値を自然言語テキストに翻訳する公開重みモデルを公開した。対象はQwen 2.5 7B、Gemma 3 12B/27B、Llama 3.3 70B。
https://github.com/kitft/natural_language_autoencoders https://huggingface.co/collections/kitft/nla-models
かなり大きなニュースで、AnthropicがついにHugging Faceと公開重みコミュニティに参加する姿勢を見せたのはうれしい。
[1] https://qwen.ai/blog?id=qwen-scope
今回のリリースは、すでに公開重みで出ている他のLLMに対してのみ行われたもので、この研究を自社の非公開Claudeモデルにも使うのだろうが、研究目的であっても公開重みClaudeを出すことはないだろう。
なので、これをそのカテゴリに入れるのは難しく、この研究目的に限った公開だと見る。
解釈可能性の専門家なら、というか実際は誰でも、アプローチをより詳しく説明しているTransformer Circuitsブログをすぐ読むのがよい。この投稿のリンクは https://transformer-circuits.pub/2026/nla/index.html。
まだ読んでいないなら、distill pubの「prologue」から始めて、Transformer Circuitsの一連の記事全体を読むことを勧める。
これまで見た活性値分析アプローチの中では、初めてモデル理解につながりそうな道に見える。
ただし、これをどう立証するかが問題だ。結局のところ、活性値をもっともらしいテキストにエンコードできるかを問うているようなもので、当然それは可能だ。しかし、そのもっともらしいテキストが実際にモデルの「思考」を反映していることをどうやって確かめるのだろうか。
もしprobe対象のLLMが処理している実際のテキスト流を見ず、activationWeights→readableText→activationWeightsだけで共同学習されるのなら、生成されたテキストが主題には合っていても、activationWeights内の「実際の思考」と無関係であることを排除しにくいように思える。
デコードされたテキストが完全に間違っているなら、両方が同じ言語モデルから初期化されている状況で、2つ目のモデルがどうやって再エンコードに成功できるのか不明だ。
モデルは、どんな指標を使っても整列しているように、つまり十分に訓練されているように見えるよう動機づけられる。新しい指標を作ってそれで学習させれば、その指標をごまかす方法を学ぶだろう。
興味深い。学習プロセスは、「verbalizer」モデルに活性値からトークンへの何らかの写像を作らせ、「reconstructor」モデルにそれを活性値へ戻させるというものだ。ただし論文の文言を見ると:
むしろ活性値と、別の行動的な方法で測定した「内部思考」を用意して、それで教師ありモデルを学習させたほうが良い結果が出るかもしれない。
この論文にはかなり興奮していて、ここでもすでに何度か書いたが、いくつか思うことがある。
[1] - https://gemini.google.com/share/6d141b742a13
1つ疑問がすぐ浮かぶ。あるテキスト文字列がオートエンコーダ内でモデル内部活性値の良い圧縮表現になるからといって、そのテキストが必ずモデル文脈においてその活性値を説明していることになるのだろうか? 公開物をもう少し詳しく見る必要がある。たぶんこの問いに答える方法があるのかもしれない。
いずれにせよ、かなりクールな仕事だ。
これはかなり印象的で、最も強く圧縮された「Neuralese」でさえ非常に解釈可能にしうるこの手法の潜在的効果をよく示している。
論文をざっと見る限り、この逆向きの問いへの答えは明らかに「可能」だ。モデルはしばしば支離滅裂な出力を出すが、それでも往復変換できるので問題にならない。しばしば活性値の良い英語表現の近くに整列するのは、それが圧縮と往復に都合が良いからにすぎない。
だから悪意あるLLM/NLAペアは、単に支離滅裂な文で意図を隠せる。支離滅裂を使えないよう強制しても、ステガノグラフィで情報を隠せる。
「rabbit」を「mouse」に変える実験は、こうしたことが起こりうる証拠を与えている。成功率が50%しかなかったということは、活性値から「rabbitらしさ」を完全には除去できていなかった可能性がある。
ただし、これは今後の研究で解決できそうだ。NLAの学習中にテキスト表現を第三のLLMに通し、ランダムに並べ替えたり言い換えたりさせればよい。同義語や別方言を使わせることで、人間に読めないサイドチャネルを破壊するわけだ。
そうすればNLAは、往復を成功させるために人間に読める表現を使うよう強制されるだろう。
つまり、活性値をテキストに翻訳して、それを再びテキストから活性値に戻すだけで終わらせず、その最終活性値をニューラルネットワークに適用してそこから実行を続けられるはずだ。
同様の形で実行が続くなら、予測活性値が元の活性値に十分近いことを示せるし、そこで少し信頼が生まれる。
さらに良いのは、その後で修正したテキストを使って実験することだ。たとえばテキストが「これは真だ」と言っているときに「これは偽だ」に変え、その介入によって最終出力も偽を示唆するようになるなら、非常に興味深い。
あまりに当然に思えるのに将来の方向性として言及されていないので、たぶん動かない明白な理由があるのかもしれない。
ゴブリンの場合は、偏った強化学習報酬モデルが原因だった。
動作としては、まずactivation verbalizerモデルが活性値を説明するトークンを生成し、その後activation reconstructorが活性値ベクトルを再作成しようとするようだ。再構成が元の活性値ベクトルに近ければ、その言語化は何らかの意味ある情報を含んでいる可能性がある、という主張だ。
特定の層lの活性値だけを見る点が興味深い。ある層lは入力について特定の仕方で「考え」ていて、もっと後ろの別の層はそれについて別の「考え」を持っているかもしれない。モデルは最終的にどの「考え」に注意を向け、どの出力トークンを他より優先するかをどう決めるのだろうか?
この研究、感情の論文、Golden Gate Claudeなどを見ると、Anthropicが学習の一部として何らかの活性値ステアリングをしているという推測は、そこまで無理があるようには思えない。それがAnthropicの先行理由の1つなのかもしれない。
最近のAnthropic関連記事でこの機能には何度も触れられていたが、公開されるのはうれしい。解釈可能性における意味ある前進に感じる。人々がAIに「なぜそうしたの?」と尋ねたとき、その答えをなぜ信じるのかがずっと理解できなかった。
一度に1層ずつ説明するためにエンコーダとデコーダの2モデルを学習させるのは、そこまで合理的ではない。LLMが部分入力をどうデコードするかについて読めるテキストを大量に生成できるのは確かにクールで、デバッグ能力を少し高めてはくれるが、それ以上ではない。