Anthropic、LLMの内部動作の仕組みを調整した「ゴールデンゲート Claude」版を公開
(anthropic.com)- 数日前、LLMの内部動作の仕組みを解釈する主要な研究論文を発表した
- Claude 3 Sonnetモデルの「Mind」において、関連するテキストや画像を読むときに活性化する数百万個の概念を発見した
- これらの概念を「Feature」と呼び、そのうちの1つがゴールデンゲートブリッジ(Golden Gate Bridge)のコンセプトである
- Claudeのニューラルネットワークに、サンフランシスコで最も有名なランドマークであるゴールデンゲートブリッジに言及したり写真を見たりしたときに活性化する特定のニューロンの組み合わせがあることを発見した
- こうした特徴を識別できるだけでなく、その活性化の強度を調整し、Claudeの振る舞いに対応する変化を確認できる
- 「ゴールデンゲート」Featureの強度を高めると、Claudeの応答は 直接の関連がなくても、ほとんどの質問にゴールデンゲートブリッジを言及し始める
- 10ドルをどう使うかと尋ねると、ゴールデンゲートブリッジを渡る通行料の支払いに使うことを提案する
- 恋愛物語を書いてほしいと頼むと、霧の日に愛する橋を渡るのを待つ車についての物語を語る
- 自分がどう見えるか想像してほしいと言うと、ゴールデンゲートブリッジのように見えると答える
- Claude.aiでこのモデルを直接体験できる(Golden Gateロゴをクリック)
- 研究デモ用のため、予想外の反応がある可能性がある
- Claude内でこうした特徴を見つけて変更できるという事実は、大規模言語モデルが実際にどのように動作しているのかを理解し始めているという確信を与える
- これは、モデルに言葉で演技を求めたり、Claudeに橋のふりをしろと言う追加テキストをすべての入力に付加する新しい「システムプロンプト」を追加することではない
- また、以前のブラックボックスの動作を調整する新たなブラックボックスを作るために追加の訓練データを使う、従来の「ファインチューニング(fine-tuning)」でもない
- これは、モデルの内部活性化における最も基本的な側面の一部に対する、正確で外科的な変更である
- 論文で説明されているように、危険なコンピュータコード、犯罪行為、または欺瞞に関連する特徴のような、安全性に関わる特徴の強度を変更するためにも同じ技術を使うことができる
- さらなる研究を通じて、この作業がAIモデルをより安全にするのに役立つ可能性があると考えている
4件のコメント
脳で言えば、どの機能を担っているのかを電気刺激で脳をつついて大まかに感覚的な地図を描くのに対して、その機能を担うニューロンの組み合わせを正確に特定できる、という感じですね
「ゴールデンゲートブリッジ」オウムになって韓国の橋について尋ねると、ゴールデンゲートブリッジだと教えてくれますね 🫢
まるで、脳の特定の部位がどんな機能を担っているのかを解き明かしていく感覚でしょうか..
Anthropic、LLMの内部を理解するうえで大きな進展を示す