2 ポイント 投稿者 GN⁺ 2024-03-29 | 1件のコメント | WhatsAppで共有

MITの研究チーム、大規模言語モデルの知識探索手法を実演

  • 大規模言語モデルがユーザーのプロンプトに応答する際、保存された知識を検索するために単純なメカニズムを使っていることを発見。
  • 研究チームはこの単純なメカニズムを活用し、モデルがさまざまなトピックについて何を知っているのかを把握し、誤って保存された情報を修正できる。

大規模言語モデルの複雑性

  • 大規模言語モデルは、顧客サポート、コード生成、言語翻訳など多様な分野で使われているが、その動作原理は完全には理解されていない。
  • MITと他機関の研究チームは、こうした巨大な機械学習モデルが保存された知識を検索するメカニズムを研究した。

知識の単純な検索メカニズム

  • 研究の結果、大規模言語モデルはしばしば単純な線形関数を使って保存された事実を復元し、解読していることが分かった。
  • モデルは類似した種類の事実に対して同じ解読関数を使用する。
  • 線形関数は、2つの変数間の直線的な関係を表す方程式である。

モデルが知っていることの探索

  • 研究チームは、さまざまな事実に対する線形関数を特定することで、モデルが新しいトピックについて知っていることを探索し、その知識がモデル内のどこに保存されているのかを確認した。
  • 開発した手法で推定された単純な関数を通じて、モデルが誤った回答をするときでも、しばしば正しい情報を保持していることを発見した。

モデルの知識の可視化

  • 研究チームは、関数を使ってモデルが異なるトピックについて何を真実だと信じているのかを判断した。
  • たとえば、"Bill Bradley was a"というプロンプトから始めて、"plays sports"と"attended university"の解読関数を用いることで、モデルがブラッドリー上院議員がバスケットボール選手であり、プリンストン大学出身であることを知っているかを確認した。
  • こうした探索手法を使って、「属性レンズ」と呼ばれるグリッドを生成し、特定の関係に関する情報がトランスフォーマーの複数の層の中のどこに保存されているかを可視化した。

GN⁺の見解

  • この研究は、大規模言語モデルが事実知識をどのように保存し、検索しているのかについての理解を一段深めるものだ。
  • モデルが誤情報を提供する傾向を減らすために、研究成果を活用して知識を修正し、AIチャットボットの誤りを防げる可能性を示している。
  • この技術が適用されれば、AIの信頼性向上に寄与し、ユーザー体験の改善にも役立つだろう。
  • しかし、すべての事実が線形にエンコードされているわけではないため、この手法があらゆる種類の知識検索に適用できるかどうかについては、さらなる研究が必要だ。
  • 類似の機能を提供するオープンソースプロジェクトとしてはGoogleのBERTやOpenAIのGPTシリーズがあり、これらも大規模言語モデルの動作原理の理解に貢献している。
  • 新しい技術を導入する際には、モデルの複雑性と解釈可能性のバランスを考慮する必要があり、この技術を選択することで得られる利点は、モデルの精度と信頼性の向上となるだろう。

1件のコメント

 
GN⁺ 2024-03-29
Hacker Newsの意見
  • この驚くべき研究は、現在のAI分野における最大級の問題のいくつかを浮き彫りにしている

    • 私たちは、パーセプトロンと大差ないニューロンやルールセットについて、実際に試行錯誤しているわけではない
    • 単純な加算関数であるパーセプトロン構造がモデル内で繰り返し現れるのは、驚くべきことではない
    • フィードフォワード・トポロジーと単一ニューロン段階は、学習させやすくGPU上で動かしやすいから採用されているだけで、本当に最善なのかという疑問がある
    • 大規模ライブラリがサポートしていないために使われていない、独特な学習手法やエンコーディング方式が存在する
    • ニューラルネットワークの基本的なルールセットに実際の変化が現れ始めるまで、私たちはずっとパーセプトロンの派生形と格闘し続けることになるだろう
  • 言語の構造がWord2Vecを可能にしている

    • Word2Vecと位置エンコーディングでエンコードされたテラバイト級の人間のテキストを学習することで、次のエンコーディングを超人的な水準で予測できるようになる
    • 単語の袋モデル(入出力の方法)と、位置エンコーディングを機能させるための限られたコンテキストウィンドウが、内部の認知構造との大きな不一致を生んでいる
    • GPT-4などにさらに多くの計算資源を投入することで、新しい形の表現が進化し、人間がそれを発見する可能性がある
    • MemGPTは無限の長期記憶によって最終的にAGIになるかもしれないが、より可能性が高いのは『メメント』の主人公のようなものになることだ
  • 事実が線形関数として保存されるということの意味を理解する助けになる

    • LLMは事実をN次元の「事実空間」にエンコードし、事実を空間内の点、ハイパースフィア、ボロノイ多様体などとして埋め込み、事実の想起とはニューラルネットワークがキーを計算・記憶し、この空間でキー・バリュー検索を行うことだ
    • このようなKVストアをエッジ伝播グラフィカルモデルにどう埋め込むのか、現在よく知られた手動の技法があるのかという疑問
    • 人間の脳が事実を線形関数に埋め込んで容易に検索できるようにする「記憶の宮殿」という記憶術との、興味深い関連
  • プログラミング知識のエンコードに使われる関数の種類への好奇心

    • 標準ライブラリや他のライブラリを、高コストな学習や性能を低下させるファインチューニングなしに、LLMの脳へ直接アップロードできるのかという考察
    • まだSF的な能力だが、少しずつ近づいているように見える
  • Word2Vecにおける関係ベクトルの働きに似ていると感じた

    • 「Xの」ベクトルを足すと、しばしば正しい答えが得られる
    • トランスフォーマーは、埋め込み空間内でエンティティをよりうまくマッピングしているのかもしれない
  • LLMは優れた圧縮メカニズムに見える

    • PCにLlamaのローカルコピーを持っているだけで、ほぼインターネット全体にアクセスできるようなものだという事実に驚かされる
  • 「King - Man + Woman = Queen」という埋め込みの例を思い出させる

    • 埋め込みには意味的な属性が含まれているため、単純な線形関数が効果的に機能する理由を説明している
  • 70億個の「パラメータ」を持つ「CSVファイル/データベース/モデル」が、ほぼあらゆる話題について知識豊富な対話型LLM/GPTをどうやって実現しているのか理解しがたい

    • 4ビットは「圧縮方法」であり、モデルが最終的に見るのはf32だ
    • 量子化とは、ニューラルネットワークの重みである32ビット浮動小数点数を、4ビット値のようなはるかに小さなビット表現へ写像する過程だ
    • 復元量子化はモデル使用時に発生し、4ビットに量子化された重みを、モデルの計算が実際に行われる浮動小数点数へ変換する
    • 「パラメータ」と、モデルが知っている「固有トークン数(語彙サイズ)」の関係についての疑問
    • LLaMAはGPT-3と比べて、32,000の語彙サイズと65Bパラメータを持っている
    • 65億パラメータは、学習データ中のトークン間で学習された関係に基づいて、与えられた入力に対してどう反応するかを決める複雑なマッピングシステムとして機能する
  • この論文が素晴らしく、こうしたアイデアを検証するために実験を行ったことが気に入った

    • LLMが単語間の単純な統計的傾向を自然に学習することを考えると、アイデア自体の新規性には疑問がある
    • すべてのLLMの振る舞いがこのように単純には説明できないことを、はるかに鮮明に示した点のほうがずっと素晴らしい
  • 推論部分を情報部分から分離できる可能性

    • もしこれが事実なら、非常に驚くべき発見だ