1 ポイント 投稿者 GN⁺ 2024-11-05 | 1件のコメント | WhatsAppで共有
  • LLMは本当に「忘れて」いるのか

    • 大規模言語モデル(LLM)は膨大なテキストデータで訓練され、優れたテキスト生成能力を示す
    • しかし、訓練データのセンシティブな性質により、望ましくない挙動を学習してしまう可能性がある
    • 機械アンラーニングはこうした問題を解決するための方法であり、モデルの有用性をできるだけ維持しながら特定の知識を除去することを目指す
  • 問題点と研究内容

    • 現在の「忘却」手法が実際に知識を忘れさせているのか、それとも単に隠しているだけなのかを検証した研究は不足している
    • 本研究は、量子化を適用すると「忘れられた」情報が復元されうることを明らかにした
    • さまざまな量子化手法を用いて、複数の精度レベルで実験を行った
  • 実験結果

    • 有用性制約のある「忘却」手法では、モデルはフル精度の時点で、意図的に忘れさせた知識の平均21%を保持していた
    • しかし4ビット量子化後には、この比率は83%まで増加した
  • 提案された戦略

    • この現象を説明するための理論的説明を提示した
    • 複雑な問題を緩和するため、量子化に頑健な「忘却」戦略を提案した
  • 研究の重要性

    • LLMの「忘却」手法の効果を評価し改善するうえで重要な貢献となる
    • 量子化が「忘却」に与える影響を理解する助けとなる

1件のコメント

 
GN⁺ 2024-11-05
Hacker Newsのコメント
  • モデル量子化が「忘却」手法を無効化するという研究結果がある。「忘却」手法とは、モデルが特定の事実を忘れるように重みを更新するもの。こうした手法は主に著作権問題への対処に使われる。
    • 量子化が「忘却」を無効化するということは、情報理論的にはモデルの重みに依然として知識が残っていることを意味する。
    • AIブームを10〜15年前の3Dプリンターブームになぞらえ、AIも同じような運命をたどるだろうと予想している。
    • 32ビットモデルでは知識を除去したが、4ビットに圧縮すると知識が再び現れるのは、情報理論的には予想外である。
    • 「忘却」のためには、モデルの有用性を損なわないよう小さな学習率と正則化を使うのが一般的である。その結果、対象LLMと「忘却」済みLLMの重みは非常に近くなる。
    • ベース学習の段階で望ましくない学習を防ぐか、ベースモデルの「忘却」が量子化に敏感である必要がある。
    • 量子化されたLLMを使っても、モデルの検閲が弱まることは確認できなかった。
    • 「忘却」された挙動を強化するには、abliteration手法のほうがより強力である。
    • 「忘却」とは実際には潜在的な「学習空間」におけるサンプリング確率を下げることであり、量子化はこのサンプリング効果を弱める。
    • 「忘却」とは、LLMが望ましくない知識を抑制することを学ぶことであり、量子化はこの抑制を壊すものである。
    • モデルの「忘却」について初めて知った。連合学習がモデルの「忘却」をどう防ぐのかについての回答を期待している。