17 ポイント 投稿者 GN⁺ 2024-05-06 | 2件のコメント | WhatsAppで共有
  • マシンアンラーニングとは、望ましくないデータを学習済みモデルから除去することを意味し、モデルを最初から再学習することなくモデルを編集しようという関心が高まっている
    • 例えば、個人情報、古い知識、著作権のある資料、有害・危険なコンテンツ、危険な機能、誤情報などを除去することがこれに当たる

アンラーニングの形態

  • 正確なアンラーニング(Exact unlearning)
    • アンラーニング後のモデルと再学習したモデルが、分布的に同一であることを要求する
    • 学習アルゴリズムにモジュール型コンポーネントがあり、学習例の異なる集合に対応していることが核心である
  • 差分プライバシー(Differential Privacy)による「アンラーニング」
    • モデルが特定のデータポイントに依存しないようにするもの
    • アンラーニング後のモデルと再学習したモデルの間に分布的な近接性を要求する
  • 既知の例空間における実証的アンラーニング(Empirical unlearning with known example space)
    • アンラーニング対象データが正確に分かっている場合に適用される
    • モデルのファインチューニングによってアンラーニングする方式である
  • 未知の例空間における実証的アンラーニング(Empirical unlearning with unknown example space)
    • アンラーニング対象データの範囲や境界が明確でない場合に適用される
    • 概念、事実、知識などをアンラーニングするケースが該当する
  • アンラーニングを依頼すること(Just ask for unlearning)
    • 強力なLLMにアンラーニングを直接依頼する方式である

アンラーニングの評価

  • アンラーニングの評価は非常に難しい問題である。特に指標やベンチマークの不足は深刻である
  • アンラーニング評価では次の3つの側面を重点的に見る必要がある
    • 効率性 : 再学習と比べてアルゴリズムがどれだけ速いか
    • モデル有用性 : 保持すべきデータや直交タスクで性能低下が起きないか
    • 忘却品質 : 忘れさせるべきデータが実際にどれだけアンラーニングされたか
  • TOFUとWMDPベンチマークが最近提案され、アンラーニング評価に役立っている
    • TOFUは著者の個人情報のアンラーニングに焦点を当て、WMDPはバイオ/サイバーセキュリティ関連の危険な知識のアンラーニングに焦点を当てている
    • インスタンスベースではなく、知識の保持と理解度に基づく高レベルの評価を行っている
  • 個人識別情報、著作権、有害性、バックドアなど、アプリケーション中心のアンラーニングベンチマークが必要に思われる

アンラーニングの実際と展望

  • アンラーニングの難しさにはスペクトラムが存在する
    • 出現頻度の低いテキストのアンラーニングが最も容易で、高頻度のテキスト、より根本的な事実の順に次第に難しくなる
    • 知識がより根本的であるほど他の知識との関連性が高く、アンラーニングの範囲が幾何級数的に増えるため
    • 初期に学習された例ほど、その後の例によって「上書き」されていてアンラーニングが難しい場合がある
    • 一方で、後から学習された例はモデルが漸進的または破滅的に忘れてしまい、アンラーニングが難しい場合がある
  • 著作権保護
    • アンラーニングは著作権保護に有望に見えるが、現時点では法的状況が不明確である
    • フェアユースの法理により、著作権のあるコンテンツの利用がフェアユースに該当するなら、アンラーニングは不要かもしれない
  • 検索ベースのAIシステム
    • アンラーニング要求を受けうるコンテンツを事前学習コーパスから除去し、外部データベースに保存する方式
    • アンラーニング要求が来たらDBから該当データを削除すればよい
    • ただし、重複除去、引用/改変への対応、データ抽出攻撃などの問題がある
  • AI安全性
    • アンラーニングは、モデルの危険な知識、行動、能力などを除去するのに活用できる
    • ただし、事後的なリスク緩和および防御メカニズムの一つとして見るべきであり、アラインメントのファインチューニングやコンテンツフィルタリングなど他の手法とtrade-offがあることを認識する必要がある

GN⁺の意見

  • マシンアンラーニングはまだ研究の初期段階にあり、特に大規模言語モデルでは多くの難しさがあるように見える。正確なアンラーニングが可能な特殊なケースを除けば、ほとんどは実証的・経験的な方法に依存している状況である。
  • アンラーニングの評価問題が最大の障害に見える。アンラーニングの定義と基準が曖昧で、アプリケーションごとに状況が異なる中、適切なベンチマークと評価指標なしに発展するのは難しいだろう。最近、TOFU、WMDPなどのアプリケーション中心のベンチマークが登場しており、これは心強い。
  • 著作権問題については、アンラーニング以外の経済的な解決策も検討に値する。定期的な再学習による正確なアンラーニングサービスを提供し、その間に発生する著作権侵害についてはモデル所有者が免責するという形をOpenAIが取っている。
  • 検索ベースのシステムには多くの利点があるが、細かく見ると想像以上に容易ではない。重複除去、著作権の識別、データ抽出攻撃への防御など、解決すべき課題が多い。LLMのインコンテキスト学習能力が高まっており、retrievalだけでも多くのことが可能になりそうだが、ファインチューニングを完全に代替するのは難しそうだ。
  • AI安全性の観点から、アンラーニングはかなり興味深い研究分野である。ただし万能の解決策ではなく、アラインメント、フィルタリングなど他の防御手法と組み合わせて使うべきである。モデルの自律性が高まるにつれて、政策・規制の観点でも関心が高まるだろう。

2件のコメント

 
GN⁺ 2024-05-06
Hacker Newsの意見
  • モデルから特定の情報を削除しても、推論やプロンプティングによって再び学習されうるという根本的な問題がある
  • 禁止された情報そのものをフィルタリングするより、最終的な推論レイヤーを形成する重みとインセンティブに解決策があるかもしれない
  • 現在の「安全な」モデルは、結果が満足のいくものではないことが多いが、これは私たちがまだ真実のモデルを望んでおらず、追加開発を可能にするモデルを望んでいるからである
  • モデルが外部の何かによって生成されたという原則をエンコードし、重み付けする方法があるかもしれない
  • 著作権を侵害するデータセットを削除することが、法的には最も受け入れられやすい方法かもしれない
  • すべてのコンテンツを収集するのではなく、モデル構築に使用可能であると明示されたコンテンツだけを収集するのはどうだろうか?
  • モデルがDPで訓練されると、データがあまりにも混ざり合って正確なデータを返せなくなるか、逆にDPの段階が無意味になる
  • 知識の削除は問題のある作業である
  • 訓練済み、未訓練、再訓練されたAIの「健全性」が懸念される
  • 2014年に政策立案者たちは、ディープラーニングがデータと計算資源の巨大な混合体になるとは予測していなかった
  • 「学習解除」は本当の目標ではなく、モデルに比喩的に頭を砂に突っ込ませたいわけではない
  • 新しいスタートアップには、ML訓練ループに熊手を持った暴徒が含まれている