- AIモデル内部の動作原理理解における大きな前進
- Claude Sonnet LLMの内部で、何百万もの概念がどのように表現されているかを確認した。
- これは、現代の本番運用レベルのLLMの内部を詳細にのぞき込んだ初の事例である。
- このような解釈可能性に関する発見は、将来的にAIモデルをより安全にする助けになる可能性がある。
- ブラックボックス的アプローチと信頼の問題
- AIモデルは、入力と出力だけを確認するブラックボックス的アプローチで扱われてきた。
- モデルがなぜ特定の応答を返すのかを理解するのは難しい。
- そのため、モデルが有害・偏向的・虚偽・危険な応答を返さないと信頼することが難しくなる。
- モデル内部状態の理解の難しさ
- モデルの内部状態は、明確な意味を持たない数値で構成されている。
- 各概念は多くのニューロンにまたがって表現され、各ニューロンは複数の概念を表現する。
- 辞書学習における進展
- 以前から、ニューロン活性化パターン(特徴)を人間が理解できる概念に対応づける進展があった。
- 「辞書学習(dictionary learning)」技術を使うことで、モデルの内部状態を多数の活性化ニューロンではなく、少数の活性化特徴で表現できるようになった。
- 小規模言語モデルでの成功
- 2023年10月、非常に小さな言語モデルで辞書学習の適用に成功した。
- 大文字テキスト、DNA配列、引用における性別などの概念を識別した。
- 大規模モデルへの拡張
- 技術を大規模言語モデルへ拡張し、より複雑な特徴を見つけられるようになった。
- 大きなモデルは小さなモデルとは異なる動作をする可能性があるという科学的リスクがあった。
- 幸いにも、大規模言語モデルを訓練してきた経験がこの実験に役立った。
- Claude 3.0 Sonnet内部の特徴
- Claude 3.0 Sonnetの中間層から、何百万もの特徴を抽出することに成功した。
- これらの特徴は、都市、人、元素、学問分野、プログラミング構文など多様な概念に対応している。
- 抽象的な特徴
- Claudeは、コンピュータコードのバグ、職業における性別バイアス、秘密保持に関する議論など、より抽象的な特徴にも反応した。
- 特徴間距離の測定
- 特徴間の「距離」を測定することで、似た特徴を見つけることができた。
- 例えば、「Golden Gate Bridge」という特徴の近くで、Alcatraz Island、Ghirardelli Squareなどに関連する特徴が見つかった。
- 特徴操作の実験
- 特定の特徴を増幅または抑制することで、Claudeの応答を変化させることができた。
- 例えば、「Golden Gate Bridge」の特徴を増幅すると、Claudeは自分の物理的な形態をゴールデン・ゲート・ブリッジだと認識するようになった。
- 安全性と特徴操作
- Claudeの機能を操作し、モデルの安全性に関わる特徴を特定して改善できる可能性を探った。
- Claudeは詐欺メールを生成しないよう訓練されているが、特定の特徴を活性化すると詐欺メールを書けるようになった。
- 今後の研究方向
- モデルの安全性向上のため、これらの発見を活用していく計画である。
- AIシステムの危険な行動を監視し、望ましい結果へ誘導したり、危険な話題を除去したりするために使える可能性がある。
- これらの技術は、Constitutional AIのような他の安全技術を強化できる。
- 今後の課題
- 現在の技術では、モデルが学習したすべての概念を見つけ出すにはコストが高い。
- モデルが特徴をどのように使っているかを理解することが重要である。
- 安全性に関する特徴が、実際に安全性向上に使えることを示す必要がある。
- 研究参加の機会
- AIモデルの解釈と改善に共に取り組む研究科学者、研究エンジニアなどを募集している。
- 詳細は「Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet」論文を参照。
- この研究は、AIモデルの解釈可能性を高め、安全性を強化する重要な前進を示した。今後もさらなる研究が必要である。
2件のコメント
どのパーセプトロンが活性化されているかを確実に把握できるという点が、脳との違いですね。
理解しにくいブラックボックスを理解するというのは、脳を研究するときに似ている気がしますね
むしろスナップショットを取りやすいという観点では、脳よりも解釈可能性が高いのではないかと思います