LLMのために忘れられた知識を回復する、驚くほど単純なアプローチ

(arxiv.org)

1 ポイント投稿者 GN⁺ 2024-11-05 | 1件のコメント | WhatsAppで共有

ICLR 2025の論文は、LLMのマシンアンラーニングが知識を完全には消去できず隠している可能性があり、デプロイ段階の量子化がその知識を再び露呈させうることを示している
複数の量子化手法と精度の実験で、ユーティリティ制約のあるアンラーニング手法はフル精度では忘れるべき知識を平均**21%**保持していたが、4-bit量子化後には83%まで増加した
BOOKSデータセットのGA_KLR事例では、フル精度モデルの元の知識保持率は13%だったが、量子化後には約**89%**まで回復した
原因は、小さな学習率とretainデータ正則化により、元のモデルとアンラーニング後モデルの重み差分が小さくなり、量子化がそれらを同じ値にマッピングできてしまうためである
緩和策としては、より大きな学習率とmodule-level saliency mapで影響の大きい構成要素だけを更新する方法があるが、ハイパーパラメータに敏感で安定した解法はまだ残された課題である

アンラーニングは知識を消すのか、隠すのか

LLMは大規模なテキストコーパスの学習によって強力な生成能力を得る一方で、学習データから望ましくない挙動も同時に学習してしまうことがある
- 例としては、著作権コンテンツの無断複製、連絡先のような個人情報の生成、攻撃的または有害なメッセージの生成がある
- GDPRの「Right to be Forgotten」のように、利用者が学習済みモデルから個人情報の削除を求められる法的文脈もある
マシンアンラーニングは、問題のあるデータの影響を除去するため、全面的な再学習なしに特定知識の記憶をなくそうとするアプローチである
- LLMの再学習はコストも時間も大きく、実用的でないことが多い
- 目標は、特定知識を除去しつつモデルのユーティリティを最大限維持することにある
核心的な問いは、既存のLLMアンラーニング手法が本当に忘却を達成しているのか、それとも現在のベンチマークでは検出できない形で知識を隠しているだけなのか、という点である

ユーティリティ保存のための既存アンラーニング手法

代表的なアンラーニング手法として、gradient ascent(GA) と negative preference optimization(NPO) が扱われている
- GAは、forgetデータセットで正解予測の可能性を下げるため、cross-entropy lossにgradient ascentを適用する
- NPOは、forget setをnegative preference dataとみなし、offline DPO目的を変形して、forget setに低いlikelihoodを与えるようモデルを調整する
GAとNPOは本来ユーティリティ保存を目的に設計されたものではないため、通常は正則化手法と併用される
- retainデータセットに対するgradient descent
- retain入力におけるアンラーニングモデルと対象モデルの確率分布間のKL divergence最小化
こうした組み合わせは、忘却性能とモデルのユーティリティの間でバランスを取ろうとするが、そのバランスは量子化環境では崩れうる

量子化が忘れられた知識を蘇らせる実験結果

実験では、対象モデルとforgetデータセットにアンラーニングを適用してunlearned modelを作成し、フル精度と量子化後の性能を比較した
フル精度ではアンラーニングモデルは強いアンラーニング性能を示すが、単に量子化を適用するだけでアンラーニング性能が損なわれる
定量結果は、知識回復が単一の設定に限られないことを示している
- ユーティリティ制約のあるアンラーニング手法は、フル精度で忘れるべき知識の平均21%を保持していた
- 4-bit量子化後にはこの値が83%まで増加した
- BOOKSデータセットでGA_KLRを適用すると、フル精度では元の知識の13%しか保持していなかったが、量子化後には約89%まで回復した
複数の量子化手法、精度水準、ベンチマークで同じ現象が検証された

小さな重み変化が生む脆弱性

中心的な仮説は、既存のアンラーニングが小さな重み変化に依存しているという点である
- モデルのユーティリティを維持するために、小さな学習率とretain set正則化を用いる
- その結果、対象LLMとアンラーニング済みLLMの重みが非常に近くなる
量子化は、近い重みを同じ値にマッピングできる
- 対象LLMとアンラーニング済みLLMは、量子化後に似た重みを持つことになる
- 量子化された対象LLMは忘れるべき知識の大部分を保持しているため、量子化されたアンラーニングLLMもその知識を回復しうる
この問題は実運用で重要である
- 量子化は、LLMをリソース制約のある環境にデプロイするため広く使われている
- 悪性コンテンツや個人情報を忘れるようfine-tuningしたモデルであれば、量子化後にその内容が回復してはならない

緩和戦略と残る限界

提案された量子化ロバストなアンラーニング戦略は、full-precisionモデルとquantizedモデルの間にある忘却の不一致を減らすことに焦点を当てている
基本的なアイデアは、forgetting lossとretaining lossの両方に、より大きな学習率を適用することだ
- forgetting lossは、forget setの情報を保持するモデルにペナルティを与える
- retaining lossは、retainデータセット上でユーティリティを保持するようにする
大きな学習率は知識回復を減らせるが、副作用も大きい
- forgetting gradientが攻撃的な更新を誘発し、モデルが過度に調整される可能性がある
- retainデータセットに大きな学習率を使うと、retain data側へのバイアスが生じ、retain以外のタスク性能が悪化しうる
副作用を減らすため、module-level saliency mapを構成し、忘れるべきデータに関連する影響の大きい構成要素だけを選択的に更新する
- 実験的には、このtargeted strategyは攻撃的更新のリスクを緩和し、モデルのユーティリティを保ち、よりバランスの取れたアンラーニング結果をもたらすのに役立つ
ただし、このフレームワークはハイパーパラメータの選択に非常に敏感で、アンラーニング後モデルが不安定になる可能性がある
コードはFailureLLMUnlearningで提供されている

1件のコメント

GN⁺ 2024-11-05

Hacker News のコメント

要するに、この論文の発見は、モデルを量子化すると、複数の「アンラーニング（unlearning）」手法が元に戻るというもの
アンラーニング手法は、モデルの重みを特定の方法で更新して特定の事実を忘れさせる方法で、たいていは著作権上の要求を満たす目的だが、実際に使われているのかはよく分からない
ここには優れた脅威モデル分析が必要に見える。たとえば、誰かが特定の事実を忘れるように微調整した fp32 モデルを自分が持っていて、それを量子化してその事実を復元できるなら、どのような状況で危険になるのかを考える必要がある
- アンラーニングは「LLM から特定の知識を消しつつ、モデルの有用性はできるだけ保つプロセス」と説明されている
  つまり「私たちのモデルはあなたの原資料なしでは役に立たないことは分かっている。だからあなたの資料の有用な部分は取り込み、残りはぼかして、あなたが提供した有用性でユーザーから金を取りながら、あなたには何も支払わない」というふうに見える
- 今後は「満州候補者式 LLM」を探し出そうとする LLM が出てきそう
- 「アンラーニング」よりもっと一般的に、fp16 モデルを fp32 や fp64 で実行すると何か良くなるのかも気になる
  たとえば、低い精度ではアクセスできなかった知識が現れる、というようなことがあるのか
- AI 安全性の肩書きを持つ人がいる組織なら、モデルが一般的な違法薬物・毒物・爆発物の製造法を覚えていないようにするためにアンラーニング手法を使うと思う
  ここでの脅威モデルは、そうした事実が偶然「よみがえった」モデルが配布される状況である可能性が高い。量子化モデルの配布は一般的なのでなおさらだ
  こうした「危険な」情報の大半は、教科書、特許、アマチュア化学フォーラムなどにすでにあるが、社会的には、そうした情報を見つけて理解できるほど賢い人は悪用しないだろうとおおむね想定している。ただし Mythbusters がゴールデンタイムのテレビで説明したり、ChatGPT が誰にでも説明したりすることは望まれていない
量子化は論点を曇らせる要素だと思う。アンラーニングを元に戻す方法が一つでもあるなら、その知識は依然として重みの中にあるという意味で、これは基本的な情報理論だ
量子化を使わなくても、失われた知識を復元する方法はいくらでもありそうだ
- 量子化やダウンサンプリング自体が、この問題を扱う根本的な方法かもしれないと思う
  1. 通常の全精度モデルを学習する
  2. 性能が限界に近づくまで量子化したうえで、アンラーニング処理を行う
  3. その後のチューニング反復のために、再び FP として学習・変換・アップサンプリングする
    こうすれば情報ボトルネックを作れるかもしれない。忘れられたものの反響は、それほど狭いボトルネックを通り抜けにくい可能性がある
- 量子化が特別ではないという話はその通りだが、「論点を曇らせる」という表現は正しくない。タイトルの通り、単に気まずいほど単純な方法であるだけだ
- それは、暗号化が論点を曇らせると言うのと似ている
  情報がそこにあるのは確かだが、復元は別の問題だ。この場合、量子化は「忘れさせた」暗号を知らなくても情報を復元できるようにする点が重要な違いだ
- アンラーニングを元に戻す方法があるなら、その方法で該当情報を含む重みを特定し、その情報が伝わらないように阻止する方法もある。学習の核心には検出がある
  情報が依然として内部にある可能性はあるが、既知のどの方法でも検出不可能かもしれない。モデルのすべての重みを 0 にすれば、情報は確実に除去される。問題は、他の情報を壊さずに情報を完全に除去したという目標をいつ達成したのかを特定することが不可能かもしれない点だ
  今後、ゼロデイのアンラーニング逆転脆弱性のようなものが出てくるのかもしれない
赤ちゃんに、覚えた「悪いこと」を忘れろと言うのに似ている。ほぼ確実に、忘れるどころかその知識がさらに強化されそうだ
AIブームの話を聞くたびに、10〜15年前の 3Dプリンターブームを思い出す。「工場に致命打」「自分たちの車を直接出力」「食べ物を直接出力」といった話があった。LLMベースのAIも同じ運命をたどる気がする。可能ではあるが、実際にはそうならない方向だ
- 今の「ブーム」は、LLMベースのAIがすべてを変える単一の技術だという考えというより、まだ想像されていない手法まで含めたあらゆるAI／機械学習のブレークスルーが合わさって、近い将来すべてを変える理論上の技術になるという期待に近い
  そのうえ、10〜15年など大した時間ではない。3DプリンターがAIに比べて本当に変革的な技術だとは思わないが、第二次世界大戦という例外を除けば、飛行機やコンピューターも、軍事用途を除く幅広い社会的・消費者向けの影響が出るまでに 30〜40年 かかったことは覚えておくべきだ
- Star Trekレベルではないが、すごくて非常に有用になるという意味か？
- 私たちは技術の短期的な効果を過大評価し、長期的な効果を過小評価しがちだ
  3Dプリンターは最終的にあらゆる製造を急激に変えるかもしれないが、そこに至るには多くの反復が必要だ。今でも理論上は、私たちが作る多くのものを3D出力できるが、既存の製造方法のほうが依然として安く、うまく機能しているため、強制要因がない。宇宙に自給自足の居住地を作るなら、3Dプリンティングがはるかに先へ進める環境になる。大量の人間の労働力や巨大なサプライチェーンがないため、持ち運び可能で独立した汎用的な製造が必要になるからだ
  LLMは近いうちに、ごく単純な作業を除いて、人間の作家やプログラマーなどを置き換えることはないだろう。代わりに補強してくれる。プログラミングでは、より賢く多才なオートコンプリートに近い。概念探し、調査、コードやテキストの要約・文書化にも役立ってきた。こうしたものは私を置き換えはしないが、少し速く、より多くのことをできるようにしてくれる
  非常に長期的には、LLMがこじつけの例を超えて、アプリケーション全体を実際に合成できるほど強力になる可能性もある。しかし、3Dプリンティングがあらゆる製造を置き換えるのと同じように、多くの反復が必要で、強制要因も必要になるかもしれない
- ここには強く同意できない
  そのブームは覚えている。特にAutodeskのように3Dプリンティングをかなり真剣に扱う会社に入る前から、よく耳にしていたからだ
  3Dプリンティングの事前経験はなかったが、メディアが言っていたことがでたらめだと気づくのに2か月ほどしかかからなかった。技術的には、一部の記事が主張していたこと、たとえば車を自分で出力するようなレベルにはまったく近づいておらず、ビジネス面でも既存の製造の代わりに3Dプリンティングを使って改善される点は驚くほど少なかった
  誇張したいわけではない。3Dプリンティングは素晴らしく、実際の用途も多い。問題は、その周辺のメディアが過剰に持ち上げていたことだ
  3Dプリンティングを実際に知っている人の大半は、メディアが控えめに言っても熱心すぎることをわかっていた。そして何年も経った今でも、そうした大きなビジョンは実現していない
  一方で AI には大きな違いが2つある。第一に、すでに非常に有用であることが証明されており、3Dプリンティングがもたらした影響の100倍はすでに生んでいる。4年ほど前に事実上リリースされた製品が、これほど驚くべき市場浸透を果たした例がいつあったかを考えればよい。ChatGPTはユーザー数ベースで、史上最も速く成長した製品であることは間違いない
  第二に、内部の人たちは概してこの技術に非常に熱狂しており、はるかに良くなり得るし、現在の潜在能力もまだ十分に活用されていないと見ている。私の考えも確実にそちらだ
情報理論の観点から見ると、少し予想外に聞こえる。モデル全体の 32ビット表現ではこの知識を取り除いたように見えるのに、4ビットに圧縮するとその知識が再び現れる、という話だから
だとすると、圧縮・量子化の段階で実際にどんな情報が消えているのかが気になる
- この論文を簡単に説明すると、ほとんどの「忘却」手法はニューラルネットワークのパラメータにあるデルタ w を加えるものと見なせるが、その w の大部分が量子化の途中で単に「丸められて消える」ということ。つまり quantize(X+w) ~= quantize(X) になる
  引用されている多くの手法が、評価精度の低下を避けるために w を小さく保つよう明示的に最適化・正則化している点で、かなり巧妙なアイデアだと思う
  だから、こうした手法が情報理論の観点から本当に忘却と呼べるのか、それとも潜在知識の周囲に if (false) を被せているようなものなのか、疑問が湧く
- 32ビット版で取り除かれたのは知識そのものではなく、知識の表現なのだと思う。そして、特定の話題について話してはいけないという情報を保存するための空間が一部割り当てられていたのかもしれない
  たとえば人間もさまざまな人種差別的表現を知っているが、その知識にアクセスしたり使ったりしてはいけないことも知っている
  ところが人間やAIモデルが頭を打ったり、量子化のようなことを経験したりすると、Xに関する知識は残り、Xについて話してはいけないという知識は消える可能性がある。そう考えるとかなり直感的だ
- 知識は消えたのではなく、覆い隠されていた可能性がある
  ニューラルネットワークをコードだと考えると、重みはソースコードに相当する。ファインチューニングは、そのコードが特定の出力を返さないように実質的にハックすることなのかもしれない
  実際、ファインチューニングはある程度そういうものに近くもある
  だから、特定の出力の周囲にファイアウォールを作っただけなのかもしれない。しかし量子化すると、その最近の修正が消える可能性がある。あまりに微妙なので生き残れないのだ
  一方で、量子化がすべての知識を破壊するわけではないことは、人気のある量子化モデルが示している
  ついでに、@simonw が通知をオンにしているなら、このテーマは記事にするのにぴったりだと思う
- 知識は取り除かれたのではなく、重みのせいで決して使われていなかっただけだ
  量子化が計算を変え、いまやその知識にアクセスできるようになったということ
- 実際、驚くことではない
  浮動小数点は、言語を表現するにはいつも奇妙な方法に感じられていた。変数を1つだけ拡大して見ると、https://vinaire.me/2019/07/17/scn-8-8008-the-emotional-scale... のような意味の集合があり、何らかの勾配上に置かれているものの、特定の範囲ごとに特殊な意味が付くのだろうか？そうした変数を解読するよう慎重に設計された神経回路は想像できるし、そのような構造を持つネットワークをどう作るかも思い描けるが、ニューラルネットワークがそうした構造を学習するというのは直感的ではない。「良い」から「悪い」へ向かう尺度は信じられるが、互いに異なる値ごとに数多くの特定の意味が付くというのは信じがたい
  そう考えると、何らかの形の 二値ニューラルネットワーク は非常に効果的に思えるが、実際にはそうではなさそうだ。ただし、ニューラルネットワークは内部的におおよそ4ビット以上の精度をあまり使っていないようではある
  こうした「忘却」システムは、ネットワーク内の記憶の「エングラム」を実際に取り除いているのではなく、特定の出力を抑制する新しい振る舞いを学習していることに近い。ネットワークに新しい知識を段階的に追加する問題と大きくは違わないが、2段階目で学ぶものが通常の学習とはかなり異なるだけだ。ネットワークを壊したくないなら、精度ビットを1つ増やして新しい振る舞いを追加する、という形を想像できる。低い精度では既存の振る舞いを維持し、高い精度では「忘却／学習された」振る舞いに重要な区別を行う構造だ
核心的な仮説は、モデルの有用性を損なわずに忘却を達成するため、既存手法は通常、小さな学習率と保持集合に対する正則化を使い、忘却中のモデル重みの変化が最小限になるようにしている、というものだ
その結果、対象LLMと忘却済みLLMのモデル重みが非常に近くなる
だとすれば、望ましくない内容を 基礎学習 の段階で学ばせないようにするか、基礎モデルの忘却プロセスを量子化を意識したものにする必要がありそうだ
この分野の専門家ではまったくないので、ばかな質問かもしれない。llama3を4ビットに量子化すると、たとえば特定の化合物を合成する方法のような 隠れた情報 にアクセスできるという意味なのか？もちろん品質は落ちるだろうが
- 私もまさにそれが気になっていた。忘却 = ガードレールなのか？重みをほんの少しだけ調整して自己検閲させているように聞こえるが、その調整が微細すぎて低い解像度では生き残れないように見える
  でも、ガードレール回避がそこまで簡単なら、すでに耳にしていそうだ
- 「特定の化合物の合成法」がもともとモデル内にすでにあった場合に限って可能だ
「現在の忘却手法の効果にもかかわらず、既存のLLM忘却手法が真の忘却を達成しているのか、それとも知識を隠しているだけなのかには、ほとんど注目されてこなかった」という箇所は良い問いだ
LLMの文脈で、そして知識一般に関する哲学的文脈でも、忘れること と記憶することが何なのか、LLMが「学習した」ものを「忘却」できるのか、できるなら数学的・計算的に正確に何を意味するのかを考える必要がある
また、LLMが既存知識から論理過程、含意、導出、帰納推論、演繹推論などを通じて、以前に忘れたものを自分自身に再び教えられるようにできるのかも気になる
可能だとすれば、それを実現できるLLMの最小の核心は何で、なぜそうなのかも問われる
このテーマについての最初の論文でも最後の論文でもなさそうだ
運用環境で 量子化LLM を使っているが、モデルの検閲が弱まったと感じたことはない
強化された振る舞いの忘却には、abliteration [1] 手法のほうがはるかに強力に見える
1 https://huggingface.co/blog/mlabonne/abliteration
- もしかして、具体的に 勾配上昇 を使って忘却済みモデルを使ったのか？
現在のモデルの問題は、学習するのではなく、詰め込み式に洗脳されることにある
学習段階で 批判的思考 が不足している
- LLMを擬人化するのは技術的にも正しくないし、あまり有益でもない
- そうでなければ、どうやってLLMを検閲するというのか？本当にLLMが自由に発言できることを望んでいるのか？
量子化を使う必要すらない。ほとんどのベンチマークはプロンプトだけで破れる
https://arxiv.org/abs/2410.02879

LLMのために忘れられた知識を回復する、驚くほど単純なアプローチ

アンラーニングは知識を消すのか、隠すのか

ユーティリティ保存のための既存アンラーニング手法

量子化が忘れられた知識を蘇らせる実験結果

小さな重み変化が生む脆弱性

緩和戦略と残る限界

関連記事

1件のコメント

Hacker News のコメント