理解可能な構成要素へ言語モデルを分解する

(anthropic.com)

1 ポイント投稿者 GN⁺ 2023-10-09 | 1件のコメント | WhatsAppで共有

Anthropic は小規模な Transformer 言語モデルにおいて、個々のニューロンより解釈しやすい特徴（feature） を見つけ、ニューラルネットワーク内部を理解可能な単位に分ける方法を扱っている
1 つのニューロンは、学術引用、英語の会話、HTTP リクエスト、韓国語テキストのような無関係な文脈で同時に活性化しうるため、モデルの振る舞い と安定的に対応づけるのが難しい
研究では、512 個のニューロンからなる 1 層を 4,000 個以上の特徴に分解し、DNA シーケンス・法的文体・HTTP リクエスト・ヘブライ語テキスト・栄養成分表示のような属性を個別に浮かび上がらせた
ブラインドの人間評価と LLM ベースの 自動解釈可能性 評価で、特徴はニューロンよりも解釈しやすく、特定の特徴を人為的に活性化するとモデルの振る舞いも予測可能に変化した
学習された特徴が異なるモデル間でもおおむね普遍的であるなら、このアプローチをより大きな フロンティアモデル へ拡張する課題は、科学というよりエンジニアリングに近くなる

ニューラルネットワークの解釈が難しい理由

ニューラルネットワークは、人が規則を直接プログラムするのではなく データから学習 され、その学習過程で数百万〜数十億個のパラメータが更新される
学習済みネットワークの数学的計算は追跡できる
- 各ニューロンは単純な算術演算を行う
- ただし、その演算が観測される振る舞いにつながる理由は明確ではない
この不透明さは、失敗モードの診断、修正方法の把握、モデルの安全性認証を難しくする

個々のニューロンは安定した解釈単位ではない

脳科学も人間の行動の生物学的基盤を理解するという似た問題を扱うが、人工ニューラルネットワークでは実験をはるかに容易に行える
- すべてのニューロンの活性化を同時に記録できる
- ニューロンを沈黙させたり刺激したりする介入が可能である
- 可能な入力に対するネットワークの応答をテストできる
しかし、個々のニューロン はネットワークの振る舞いと一貫した関係を持たない
- 小規模言語モデルの単一ニューロンは、学術引用、英語の会話、HTTP リクエスト、韓国語テキストなど、複数の無関係な文脈で活性化される
- 古典的なビジョンモデルの単一ニューロンは、猫の顔と自動車の前部の両方に反応する
同じニューロンの活性化でも、文脈によって異なる意味を持ちうる

特徴（feature）でモデルを分解するアプローチ

論文 Towards Monosemanticity: Decomposing Language Models With Dictionary Learning は、個々のニューロンより優れた分析単位があることを扱っている
この単位である 特徴（feature） は、ニューロン活性化のパターン、すなわち線形結合に相当する
Anthropic は小規模 Transformer モデルで、このような特徴を見つける仕組みを構築した
このアプローチは、複雑なニューラルネットワークを理解可能な部分に分ける道筋であり、神経科学・機械学習・統計学で高次元システムを解釈しようとしてきた従来の研究の上に成り立っている

512 個のニューロンを 4,000 個以上の特徴に分解

ある Transformer 言語モデルで、512 個のニューロンを持つ層を 4,000 個以上の特徴 に分解した
分解された特徴は、それぞれ異なる属性を個別に表す
- DNA シーケンス
- 法律文書の言語
- HTTP リクエスト
- ヘブライ語テキスト
- 栄養成分表示
こうしたモデル属性の多くは、個々のニューロン活性化だけを個別に見ても現れない

解釈可能性の検証

ブラインドの人間評価者が、特徴とニューロンの 解釈可能性 を採点した
- 特徴はニューロンよりはるかに高いスコアを得た
LLM を用いた 自動解釈可能性 評価も併用された
- 大規模言語モデルが小規模モデルの特徴について短い説明を生成する
- 別のモデルがその説明だけを使って特徴の活性化をどれだけうまく予測できるかを採点する
- この評価でも特徴はニューロンより高いスコアを得た
結果として、特徴の活性化とモデルの振る舞いの下流効果が一貫して解釈できることの根拠が強まった

特徴を用いたモデルのステアリング

特徴はモデルを標的的に ステアリング する手段も提供する
特定の特徴を人為的に活性化すると、モデルの振る舞いは予測可能な形で変化する
したがって特徴は、単なる観測単位ではなく、モデルの振る舞いに影響を与える内部構成要素として扱える

普遍性と解像度の調整

学習された特徴は、異なるモデル間でもおおむね 普遍的 である
- あるモデルの特徴を研究して得た知見が、別のモデルにも一般化できる可能性がある
学習する特徴の数を調整すれば、モデルを見る 解像度 を変えられる
- 小さな特徴集合で分解すれば、理解しやすい粗い視点が得られる
- 大きな特徴集合で分解すれば、より細かな視点から微妙なモデル属性が浮かび上がる
関連する説明は解像度の変化実験につながっている

AI 安全性と次の課題

この研究は Anthropic の 機械的解釈可能性 研究への投資の成果であり、AI 安全性に向けた長期研究の方向性の 1 つである
個々のニューロンが解釈不可能であることは、言語モデルを機械的に理解するうえで大きな障害だった
ニューロン群を解釈可能な特徴へ分解できれば、この障害を乗り越えられる可能性がある
長期的には、モデルの振る舞いを内部から監視しステアリングすることで、企業や社会での導入に必要な安全性と信頼性の向上につながる可能性がある
次の課題は、小規模モデルで成功した方法を、はるかに大規模で複雑な フロンティアモデル へ拡張することだ
- 大規模言語モデル解釈の次なる主要な障害は、初めて科学よりもエンジニアリングに近いものだと見られている
詳細は Towards Monosemanticity: Decomposing Language Models With Dictionary Learning で確認できる

1件のコメント

GN⁺ 2023-10-09

Hacker News のコメント

ごく最近の別の論文と比較した有用な記事をたまたま見かけたが、重要な発見の一部を実質的に裏づけているように見える。おそらくその別論文の著者が書いた比較記事だと思われる: https://www.lesswrong.com/posts/F4iogK5xdNd7jDNyw/comparing-...
ちょうどこれをサイドプロジェクトとして、ほぼそのままやっていた。純粋な好奇心から始めたもので、まったく同じではないが、特定の LLM の慎重に較正された複数の出力を受け取り、その背後にありそうなパラメータ集合を推論するアルゴリズムを改良しているところ
観測されたものと似たパラメータクラスタが出てくるだろうと予想していた。非公式にはこの問題を「LLM 逆算」と呼んでいるが、当然ながら簡単に解けるものではない。それでも完全に不可能ではなく、これまでのところかなり良い近似は見つかっている
リンク先の原稿の末尾にある「一部の特徴は実は高次元の特徴多様体であり、辞書学習がそれを近似しているのかもしれない」という仮説も興味深い。連続的で滑らかな空間のように振る舞うものがあるのだから、必要に応じて多様体をいくらでも定義できるという点では正しい。厳密な議論は脇に置けば、実際にそういうことが起きていて、この問題にアプローチする正しい枠組みだと思う
ここから得られる驚くべき気づきは、この LLM 空間内の異なる多様体をつなぐ遷移関数に概念的に対応するものが何か、ということだ。それを見ると、複雑だからではなく、むしろ例外的に単純すぎて頭が爆発しそうになるはず
- ここで言う「遷移関数」が正確に何を意味するのか、もう少し詳しく説明してもらえる？
- これを始めるにあたって、どんなアプローチで入ったのか気になる。LLM がどう機能するのかももっと学びたい
- 階層的という意味で言っているの？それとも自分が完全に要点を外しているのかな
これはアラインメント研究における大きな前進のように見える。これまでの大きな問題は、LLM が解釈しにくい数字の塊であり、内部で何が起きているのかほとんど分からなかったことにあった
この手法がさらに大規模に拡張できるなら、Anthropic はその問題をかなり改善したことになる。異なるニューロン集団が実際に何をしているのかを突き止め、それを使って LLM の振る舞いを制御できる。意図せずアラインメントから外れた AI を防ぐ助けになるかもしれない
- 自分には枝刈りのよい手がかりのように聞こえる
- 「学習された特徴は異なるモデル間でもおおむね普遍的で、あるモデルの特徴を研究して得た教訓は他のモデルにも一般化できる」という部分は、もっと詳しく説明してほしかった
  同じ学習データで訓練したときに同じ特徴認識器が見つかったという意味なのか？それとも別の意味なのか？何かを示してはいるが、正確に何を示しているのかは曖昧だ
ニューラルネットワークの中に手動でプログラムしたコンポーネントを入れたらどうなるのか気になる。DNA 配列検出のような単純なコンポーネントなら、重みを直接設定して入れられそうだ
同じやり方でニューラルネットワークに数学コンポーネントを与えることもできる。訓練過程でネットワークはこうした事前定義コンポーネントを見つけて活用するのか、それとも無視して DNA 配列を検出する独自の方法を新たに作るのだろうか？
- さらに調べたいなら、このアイデアの歴史と活用は特徴量エンジニアリングと呼ばれている
  トークン化もこの一形態だ。重要だと分かっているパターンをモデルが直接学ばなくて済むよう、データをあらかじめ変換するものだから
- Transformer を手動でプログラムすることはできる: https://srush.github.io/raspy/
  ただし、それをモデルの中に統合できるかは分からない。こうしたものは多義的ではないので、学習済みニューロンよりはるかに多くの「空間」を占め、最終的には空間が足りなくなるかもしれないと思う
- ある層の入力の一部として推測的な入力変換を追加し、ネットワークにその変換を使うかどうか決めさせる、と見ることもできる。CNN の畳み込み層に似ているが、はるかに特定領域向けの形だ
  ただ、こうした変わった層についてどれほど研究されているのかはよく分からない
- 精度が非常に重要な一部のユースケースでは、計算のために手書きコードを選ぶこともできる。そうすれば、特定のタスクを LLM に任せるより、人間が作った方法の効率性に確信を持てる
  ただし、これがネットワークに直接統合されるのか、それとも LLM が使えるツールになるのかはまだ不明だ。興味深いことに、これは人間の脳を Neuralink のようなもので強化するのか、それとも単に電卓を持たせるのかという選択にも似ているように見える
こうした研究が、はるかに小さく効率的でありながら精密に調整可能で steerable なモデルを作る方法につながってほしい
各部分が何をしているかを見られるなら、理論上は望む特徴集合だけを作る方法を見つけられる。あるいは、重複した容量を持つ特徴を調整することもできるだろう
特徴を研究していけば、知識を非常に豊かで細かく定義された知識グラフに近い形へ蒸留できる地点まで行けるかもしれない
- Anthropic は多次元の綱渡りをしているのだと思う。AI 安全を望んでおり、おそらく誰もが強力なモデルを持つことも避けたいのだろう
  だが、その研究成果が Meta やさまざまな Discord グループに取り込まれると、今の毛むくじゃらな LLM たちが強力な競争相手に変わり、誰もがその力にアクセスできるようになる。どちらがよいか強い確信はないが、少しはオープンモデル寄りだ
  いずれにせよ、私たちのような普通の人間も、すでにコンピュータ、最新 CPU、インターネットのようなものを使うことを許されている。詐欺のような悪いこと、それ以上に悪いことも起きるが、人々ができることを制限するよりはましだと思う
1つの巨大モデルは、脳が機能する仕組みではない。組織図が機能する仕組みでもない
LLM が現在の計算密度でこの程度の能力を示しているという事実は、生産的な知識労働者を作るという課題が、すでに潜在能力が過剰な領域に入っているという強いサインに見える
欠けているピースは LLM の発展ではなく、LLM の管理だ。内部的には敵対的な LLM の組織図を自分に報告させ、その中で信頼を築くことが核心だ
- こうしたシステムの動き方は、ものすごく非効率に感じる
  私たちは料理本を読むたびに天体物理学モデルを再評価したりはしない
人間の脳の各ニューロンはどれほど多義的なのか気になる。本当に欲しいもの、そして人間の脳が持っているかもしれないものは、情報量の高い単義的な神経ネットワーク、つまり特徴ベース・概念ベース・マクロパターンベースのネットワークのように感じる
多義的なニューロンがあるとしても、それらは属する特徴の中で似た、あるいは同じ情報を共有し、空間効率と計算効率を得ているのだと思う。一方、こうした Transformer モデルでは、同じネットワークの上に100万個の人間の脳を重ね、学習集合のあらゆる特徴をどうにか平均化して固有のニューロン群にしているように見える。そうなると自然にはるかに大きな「脳」になる
論文ではネットワーク内の単義的ニューロンはうまく機能しないとしているが、私の直感では、それらがあまりにも「高精度」で、特徴レベルで十分な情報を符号化していないからではないかと思う。特徴は低次元で、単義的な高次元ニューロンはごく少ない情報しか符号化しない、ということかもしれない。ただし人間の脳についての知識が乏しい状態での考えなので、自分が知らない類似点がはるかに多い可能性もある
これは本当にすごいと思う。すべての LLM がこうした共通特徴の周辺へ収束しているように見える
非専門家としての理解では、訓練済みモデルは、ある記号から次の記号へ移る遷移をノード間の確率として記述している。このグラフには構造がある。構造がなければ、そもそも訓練は不可能なはずだから
ただしその構造は、1枚の紙の上に各ノードの定義が異なる色のインクで幾重にも塗り重ねられているようなものだ。この研究と LessWrong の記事に出てくる親・兄弟論文は、その浮動小数点スープの中から色の異なるグラフ構成要素を拾い出す作業のように見える

理解可能な構成要素へ言語モデルを分解する

ニューラルネットワークの解釈が難しい理由

個々のニューロンは安定した解釈単位ではない

特徴（feature）でモデルを分解するアプローチ

512 個のニューロンを 4,000 個以上の特徴に分解

解釈可能性の検証

特徴を用いたモデルのステアリング

普遍性と解像度の調整

AI 安全性と次の課題

関連記事

1件のコメント

Hacker News のコメント