GPT-4から概念を抽出

(openai.com)

2 ポイント投稿者 GN⁺ 2024-06-07 | 1件のコメント | WhatsAppで共有

OpenAIは、言語モデル内部をより深く理解するために、GPT‑4の表現を1,600万個の特徴に分解するスケーラブルな手法を公開
中核となるツールはスパース・オートエンコーダで、出力に影響する少数の活性化パターンを人間が理解できる概念と結び付けようとするアプローチ
新しい手法は既存手法よりも予測可能なスケーリングを示し、GPT‑2 smallとGPT‑4の活性化に対して複数のオートエンコーダを学習するのに用いられた
限界も明確で、多くの特徴はいまだ解釈が難しく、スパース・オートエンコーダを通したGPT‑4の活性化は約10分の1の学習計算量のモデル相当の性能にとどまる
公開された論文、コード、特徴可視化ツールは後続研究の基盤となるもので、短期的には言語モデルの振る舞いの監視と操舵に有用かどうかを検証する計画

ニューラルネットワーク内部の解釈が難しい理由

現在、言語モデル内部の神経活動を理解する方法は十分に確立されていない
自動車のような人工物は部品仕様に基づいて設計・評価・修理できるが、ニューラルネットワークは直接設計された部品ではなく、学習アルゴリズムの産物
このためニューラルネットワークは識別可能な部品へ容易に分解できず、自動車の安全性を推論するようにAIの安全性を扱うことが難しい
ニューラルネットワークを解釈するには、まず神経計算を説明できる有用な構成単位を見つける必要がある

スパース・オートエンコーダによるアプローチ

言語モデル内部の活性化は予測しづらいパターンでオンになり、複数の概念を同時に表しているように見える
活性化は密に現れ、各入力ごとに多くの要素が同時に活性化する形を取る
現実世界の概念は特定の文脈で全体のごく一部だけが関係するため、スパース性が重要
スパース・オートエンコーダは、特定の出力生成に重要な少数の特徴を識別する手法
- 人が状況を推論するときに頭の中で保持する少数の概念に似た構造が期待される
- 解釈可能性を直接報酬化しなくても、特徴は人が理解しやすい概念と自然に対応するスパースな活性化パターンを示す
大規模言語モデルは非常に多くの概念を表現するため、フロンティアモデルの概念を十分に包含するにはオートエンコーダも非常に大規模である必要がある

GPT‑4で見つかった大規模特徴

OpenAIは、フロンティアAIモデルにおいてスパース・オートエンコーダを数千万個の特徴規模へ拡張できる方法論を開発
この方法論は既存手法よりも優れたスケーリング上の見返りを示し、滑らかで予測可能な拡張特性を持つ
特徴の品質を評価するための複数の新しい指標も導入
このレシピでGPT‑2 smallとGPT‑4の活性化に対してさまざまなオートエンコーダを学習
- GPT‑4には1,600万個の特徴を持つオートエンコーダを学習した
特徴の解釈可能性は、特定の特徴が活性化する文書を可視化して確認
- 例として、人間の欠陥、価格引き上げ、XとY、学習ログ、修辞疑問、大域的環、dopamine関連の特徴などが含まれる
- GPT‑4では「物事、特に人間がflawedであるという表現」に関連する特徴も確認された
より多くの特徴は特徴可視化ツールで探索できる

なお残る限界

解釈可能性がモデルの信頼性や操舵可能性を高めうるという期待はあるが、現在の取り組みはまだ初期段階にとどまっている
発見された多くの特徴は依然として解釈が難しい
- 明確なパターンなしに活性化する場合がある
- 通常エンコードしているように見える概念とは無関係な偽の活性化が現れる場合がある
- 解釈の妥当性を確認するよい方法がまだない
スパース・オートエンコーダは元のモデルのすべての振る舞いを捉えられるわけではない
- GPT‑4の活性化をスパース・オートエンコーダに通すと、約10分の1の学習計算量で学習したモデルと同等の性能になる
- フロンティアLLMの概念を完全にマッピングするには、数十億または数兆個の特徴まで拡張する必要があるかもしれない
- 改善されたスケーリング手法があっても、その規模はなお困難
スパース・オートエンコーダはモデル内の1か所で特徴を見つけられるが、モデル全体の解釈に向けた一段階にすぎない
- モデルがその特徴をどのように計算するのか
- その特徴が後続のモデル部分でどのように使われるのか
- この2つの問題を理解するには、はるかに多くの作業が必要

公開資料と次の段階

OpenAIは実験と手法をまとめた論文を公開
GPT‑2 small向けの完全なオートエンコーダ群と、それを使うコードを提供
GPT‑2とGPT‑4の特徴が何に対応しうるかを見られる特徴可視化ツールも公開
短期的には、発見した特徴が言語モデルの振る舞いの監視と操舵に実用的に有用かどうかをフロンティアモデルでテストする計画
長期的には、解釈可能性がモデルの安全性と堅牢性を推論する新しい方法を提供し、強力なAIモデルの振る舞いに対する保証を通じて信頼を大きく高めることを目指す

1件のコメント

GN⁺ 2024-06-07

Hacker Newsの意見

最初の例の一つが GPT-4 feature: ends of phrases related to price increases なのに、5つの応答のうち2つは価格上昇とまったく関係がなさそうに見える
たとえば、原油価格が下落したという文や、契約価格に触れている洗濯の請求書の文が含まれている
何かを誤解している気がするが、あり得る例はいくらでもあったはずなのに、なぜよりによってこういう例を選んだのか気になる
- ほとんどの例には緑色の強調カウンターがない点を見るべき
  緑色の強調は small losses. KEEPING SCORE: The Dow Jones industrial average rose... のような文に現れており、残りの文はこのニューロンがどれほど特定のパターンに反応するかを対比するためのものに見える
本当に素晴らしく、待ち望んでいた深い意味検索の方向へ進んでいる感じがする
文書を「価格引き上げ」という概念で絞り込んだり、「修辞疑問」のようなより高次の概念で探したりする例が気に入った
修辞疑問の例でモデルを学習または微調整して、文書内から見つけさせるやり方と比べるとどうなのか気になる
入力を与えて答えを生成させるのではなく、ニューラルネットワークの活性化だけを見る方式なので、より速い、または正確かもしれないように思える
- Exaがこういうことを試している
  この方式で興味深い結果をいくつか見つけはしたが、まだ十分に良いという感じはしない
  https://exa.ai/search?c=all
興味深く、Anthropicが Claude 3 Sonnet で行った似た取り組みを思い出す
[0] https://transformer-circuits.pub/2024/scaling-monosemanticit...
- Webページは、疎オートエンコーダをOpenAIがこのプロジェクトのために発明したかのように強く示唆している感じがする
  Webページでは引用せず、論文の中に出典を埋め込んでいるのはかなり奇妙だ
- 方法は同じで、OpenAIがAnthropicの研究を自社モデルに適用したものに近い
- これを学習するのに、元のモデルを学習したときとほぼ同程度の計算資源がかかったという話があった
Anthropicの「Mapping the Mind of a Large Language Model」から3週間も経たずにこういう結果が出てきたのは興味深い
こうした試みには本当に期待しているし、いまだに「LLMやディープラーニングがどう動いているのかはまったく分からない」という言い方をよく聞くが、こういう研究を見ると、それは過度な一般化に近い
Anthropicの発表とJan LeikeのOpenAI退社に対応して、多少急いで出したのか気になる
論文リンクもArxivではなく、分析の深さもずっと浅く見えるが、無関係なことかもしれない
- 記事自体に「現在、私たちは言語モデル内の神経活動をどう解釈すべきか分かっていない」「ほとんどの人間の創作物と違い、ニューラルネットワークの内部動作をよく理解していない」「ネットワークは十分に理解されておらず、識別可能な部分へ簡単に分解できない」といった文が繰り返し出てくる
  人々が、モデルがなぜそのような出力をするのか現時点では分からないと言う理由は、記事が明確に述べているように、実際にまだ分かっていないからだ
- 言及されている他の出来事とは無関係に、この時期に論文を公開する予定だった
  LLMがどのように動作しているのかはまだほとんど分かっていない、という言い方は今でも概ね正確だと思う
  疎オートエンコーダがいつかそれを変えるかもしれないが、道のりはまだ長い
- こうした研究はむしろ、内部動作への理解がまだ非常に少ないという点を補強していると思う
  ブログ記事も、この取り組みは初期段階で限界が多いと繰り返し述べている
- 出典を探すのは面倒だが、Twitterで誰かが最初のコミットが6か月前だと突き止めていた
  おそらく皆がサンフランシスコの同じ空気の中にいて、業界全体にすでにこうした流れが広がっていたのだと思う
- 論文タイトルがLLMに心があるかのように示唆している事実は、著者たちにとってあまり良い兆候には見えない
  「安全性」についての意味のない言葉も続いている
  再現できるように作業内容を見せてくれるとよいが、広告としては悪くない
別の例では、生殖解剖学に関する科学的説明のように見える文書を性的コンテンツに分類したようだ
概念リンクはこちら [content warning]: https://openaipublic.blob.core.windows.net/sparse-autoencode...
DocID: 191632
この方式が、モデルにSHAP[0][1]のようなものを適用するのと比べて、どう違うのか、あるいはどう改善されているのか気になる
冒頭の「現在、私たちは言語モデル内の神経活動をどう解釈すべきか分かっていない」という文は、単に間違いなのではないかと思う
[0] https://github.com/shap/shap
[1] https://en.wikipedia.org/wiki/Shapley_value#In_machine_learn...
- SHAPはかなり別物だと思う
  Shapley分析は本質的にゲーム理論的な方法論で、モデル非依存であり、入力の個々の部分が特定の予測にどれだけ寄与したかを見るだけで、モデルが内部でどのように動いて出力を作っているのかは扱わない
  呼び出し可能なブラックボックスさえあればShapley値やその近似値は計算できるが、モデルが内部でどのように、またはなぜ動作しているのかを説明してくれるわけではない
これがなぜ重要なのか、簡単に説明してもらえる？ 5歳児向けレベルまでとは言わないけど、基本的な言葉で知りたい
- LLMベースのAIには「特徴」が多くあり、これは「概念」とある程度似ている
  たとえば don't という単語の中のアポストロフィという概念から、初期アメリカ史の文脈で "George Wash" の次には通常 "ington" が来るというパターンまで含まれうる
  LLMのニューラルネットワーク内では、こうしたものがソフトウェア回路のような経路にマッピングされる
  こうした特徴がLLM内部でどのように生成されるのか、出力時にどの回路が活性化するのか、なぜその回路に従うのかを十分に理解できていないため、この部分のデバッグは難しく、モデル改善も難しくなる
  LLM/AIが十分に発展したら、私たちを意図的にだましているかどうかを見分けたくなるはずだが、現状ではそれはできない
  そのため、概念を作り出して出力する過程で、ニューラルネットワーク内で実際に何が起きているのかを理解しようとする分野が解釈可能性である
  OpenAI、DeepMind、Anthropicは、LLMの内部回路をのぞき込み、一部の特徴を明らかにする方法を見つけている
  モデルに質問を投げたあと、内部回路のどの部分が「オン」になるかを見て、検証段階としてその回路を取り除き、その特徴が応答であまり使われなくなるかを確認する
  グラフと強調表示された単語は、かなり確信できる概念の視覚的表現である
  たとえば文の2つの部分をつなぐ「AND」という概念は、「AND」という単語を強調する
  解釈可能性に興味があるなら、Neel Nandaが最もよい情報源だと思う
  ただし、この記事で扱われているOpenAIの方法論とはアプローチが異なる: https://www.neelnanda.io/mechanistic-interpretability
- 大規模モデル、たとえば拡散モデルやTransformerの中に保存された高レベル概念は、通常は互いに分離しにくく、モデルはほとんどブラックボックスに近い
  モデルが何を知っているのかをのぞき込むための研究は多く行われており、これはその方向でのもう一つの前進である
  概念をより簡単に分離できるようにするものだ
  これにより、モデル内の知識を分析し、無関係な概念への影響を抑えつつ、特定の概念を追加・削除したり重要度を変更したりできる可能性が生まれる
  ただし、この特定の手法で得られる精度には常に疑問があり、概念によっては近すぎて分離が難しいため、完璧ではないだろう
- ChatGPT自身の回答によれば、この記事は研究者たちが疎オートエンコーダを使い、GPT-4のような複雑な言語モデル内の重要な特徴を識別・解釈することで、内部動作をより理解可能にする方法を扱っている
  こうした進展は、モデルの意思決定プロセスをより単純で人間が解釈できる部分に分解し、AIの安全性と信頼性を高める助けになる
- 全体として、Anthropicが行った作業をなぞったもので、根本的に新しいものはない
  ここで行ったのは、GPT-4内部で特定の識別可能な概念に対応するパターンを見つけることだ
  この作業は、OpenAIのほとんど解体された安全性チームが行ったもののようで、最近退社した共同リードのIlyaとJan Leikeの名前も入っている
  名目上は安全性目的であり、モデル実行中に特定の概念の活性化を強めたり抑えたりできるようにすることを目指している
  AnthropicがモデルをGolden Gate Bridgeに執着させたデモがその例だ: https://www.anthropic.com/news/golden-gate-claude
  こうした作業は安全性だけでなく、モデルを特定の方法で制御できるという点で機能的な活用可能性もありそうだ
ニューラルネットワークの出力を説明するために、そのニューラルネットワーク上で学習したオートエンコーダも一緒に公開するのがよい慣行になりうる、ということだろうか？
Hugging Faceのすべての公開モデルにこうした付属物があると便利そうだ
- そうしたエンコーダは特定のモデルに依存しそうだ
これはニューラルネットワーク用のfMRIのようなものなのか？
トピックに応じてどの領域がオンになるのかを見られるわけだ
自動的にオンになった領域を評価する評価用ニューラルネットワークを付けられるかもしれないのかも気になる
fMRIスキャンだけで患者が見ていたものをAIが再構成したように、可能かもしれないと思える
こうした研究で期待される機能の一つは、推論中に使われるホットスポットを特定することだ
仮想マシンのように、こうした部分を全部または一部キャッシュして応答時間を短縮し、必要な演算サイクルも減らせるかもしれない

GPT-4から概念を抽出

ニューラルネットワーク内部の解釈が難しい理由

スパース・オートエンコーダによるアプローチ

GPT‑4で見つかった大規模特徴

なお残る限界

公開資料と次の段階

関連記事

1件のコメント

Hacker Newsの意見