MITの研究チーム、大規模言語モデルの知識探索手法を実演
- 大規模言語モデルがユーザーのプロンプトに応答する際、保存された知識を検索するために単純なメカニズムを使っていることを発見。
- 研究チームはこの単純なメカニズムを活用し、モデルがさまざまなトピックについて何を知っているのかを把握し、誤って保存された情報を修正できる。
大規模言語モデルの複雑性
- 大規模言語モデルは、顧客サポート、コード生成、言語翻訳など多様な分野で使われているが、その動作原理は完全には理解されていない。
- MITと他機関の研究チームは、こうした巨大な機械学習モデルが保存された知識を検索するメカニズムを研究した。
知識の単純な検索メカニズム
- 研究の結果、大規模言語モデルはしばしば単純な線形関数を使って保存された事実を復元し、解読していることが分かった。
- モデルは類似した種類の事実に対して同じ解読関数を使用する。
- 線形関数は、2つの変数間の直線的な関係を表す方程式である。
モデルが知っていることの探索
- 研究チームは、さまざまな事実に対する線形関数を特定することで、モデルが新しいトピックについて知っていることを探索し、その知識がモデル内のどこに保存されているのかを確認した。
- 開発した手法で推定された単純な関数を通じて、モデルが誤った回答をするときでも、しばしば正しい情報を保持していることを発見した。
モデルの知識の可視化
- 研究チームは、関数を使ってモデルが異なるトピックについて何を真実だと信じているのかを判断した。
- たとえば、"Bill Bradley was a"というプロンプトから始めて、"plays sports"と"attended university"の解読関数を用いることで、モデルがブラッドリー上院議員がバスケットボール選手であり、プリンストン大学出身であることを知っているかを確認した。
- こうした探索手法を使って、「属性レンズ」と呼ばれるグリッドを生成し、特定の関係に関する情報がトランスフォーマーの複数の層の中のどこに保存されているかを可視化した。
GN⁺の見解
- この研究は、大規模言語モデルが事実知識をどのように保存し、検索しているのかについての理解を一段深めるものだ。
- モデルが誤情報を提供する傾向を減らすために、研究成果を活用して知識を修正し、AIチャットボットの誤りを防げる可能性を示している。
- この技術が適用されれば、AIの信頼性向上に寄与し、ユーザー体験の改善にも役立つだろう。
- しかし、すべての事実が線形にエンコードされているわけではないため、この手法があらゆる種類の知識検索に適用できるかどうかについては、さらなる研究が必要だ。
- 類似の機能を提供するオープンソースプロジェクトとしてはGoogleのBERTやOpenAIのGPTシリーズがあり、これらも大規模言語モデルの動作原理の理解に貢献している。
- 新しい技術を導入する際には、モデルの複雑性と解釈可能性のバランスを考慮する必要があり、この技術を選択することで得られる利点は、モデルの精度と信頼性の向上となるだろう。
1件のコメント
Hacker Newsの意見
この驚くべき研究は、現在のAI分野における最大級の問題のいくつかを浮き彫りにしている
言語の構造がWord2Vecを可能にしている
事実が線形関数として保存されるということの意味を理解する助けになる
プログラミング知識のエンコードに使われる関数の種類への好奇心
Word2Vecにおける関係ベクトルの働きに似ていると感じた
LLMは優れた圧縮メカニズムに見える
「King - Man + Woman = Queen」という埋め込みの例を思い出させる
70億個の「パラメータ」を持つ「CSVファイル/データベース/モデル」が、ほぼあらゆる話題について知識豊富な対話型LLM/GPTをどうやって実現しているのか理解しがたい
この論文が素晴らしく、こうしたアイデアを検証するために実験を行ったことが気に入った
推論部分を情報部分から分離できる可能性