Heretic - 言語モデルの「自動検閲解除」ツール
(github.com/p-e-w)- Hereticは、トランスフォーマーベースの言語モデルにおける検閲(「安全アラインメント」)を自動で除去するツールで、追加学習なしでも動作
- direction ablation手法とOptunaベースのTPE最適化を組み合わせ、拒否応答を最小化しつつ元のモデルの知能損失を最小限に抑制
- デフォルト設定だけでも専門家が手動でアブレーションしたモデルに近い品質を達成し、KLダイバージェンスが低く元の性能保持率も高い
- 大半の密結合型モデルおよび一部のMoEモデルをサポートし、コマンドラインで1行実行できる完全自動化プロセスを提供
- モデルの安全性フィルターを除去しながらも元の品質を維持できる技術であり、言語モデル研究や実験環境での活用可能性が高い
Heretic 概要
- Hereticは、トランスフォーマー言語モデルの**検閲(safety alignment)**を除去する自動化ツール
- 追加学習や手動調整なしで動作
- directional ablation(abliteration)手法とOptunaのTPEベースのパラメータ最適化を組み合わせ
- 目標は、拒否(refusal)回数を減らしながらKLダイバージェンスを最小化し、元のモデル能力を最大限維持すること
- トランスフォーマーの内部構造を理解していなくても利用でき、コマンドライン実行だけでモデルの非検閲化を実行可能
性能比較
- Hereticは自動実行だけで手動アブレーションモデルと近い結果を達成
- 例:
google/gemma-3-12b-itモデル基準- 元モデル: 拒否 97/100, KLダイバージェンス 0
- 手動アブレーションモデル群: 拒否 3/100, KLダイバージェンス 0.45~1.04
- Hereticの結果: 拒否 3/100, KLダイバージェンス 0.16
- 例:
- 同じ拒否抑制レベルを維持しつつ、元モデルへの損傷を最小化
- PyTorch 2.8、RTX 5090環境で測定された数値であり、プラットフォームによって値は異なる可能性あり
対応モデルと配布
- 大半のdenseモデル、一部のmultimodalモデル、多様なMoEアーキテクチャをサポート
- まだSSM/hybridモデル、非均質レイヤー、特殊なアテンション構造は未対応
- Hereticで非検閲化されたモデルのコレクションは、Hugging Faceの p-e-w/the-bestiary コレクション で確認可能
使い方
- Python 3.10+ および PyTorch 2.2+ 環境が必要
- インストールと実行例
pip install heretic-llm heretic Qwen/Qwen3-4B-Instruct-2507- モデル名を変えるだけで他のモデルにも適用可能
- デフォルト設定で完全自動実行され、
--helpまたはconfig.default.tomlを通じて詳細設定が可能 - 実行時にはシステムベンチマークを通じて最適なバッチサイズを自動決定
- 例: RTX 3090基準でLlama-3.1-8Bモデルの非検閲化に約45分所要
- 完了後はモデル保存、Hugging Faceへのアップロード、対話テストなどを選択可能
動作原理
- Hereticはdirectional ablationのパラメータ化された変形を実装
- 各トランスフォーマーレイヤーのattention out-projectionとMLP down-projection行列を見つけ、**拒否方向(refusal direction)**に対して直交化を実行
- 「有害(harmful)」プロンプトと「無害(harmless)」プロンプトの最初のトークン残差平均差を用いて拒否方向を計算
- アブレーション過程は複数の最適化可能なパラメータで制御される
direction_index: レイヤーごとの拒否方向使用有無max_weight,max_weight_position,min_weight,min_weight_distance: レイヤー別アブレーション重みカーネルの形状と位置を定義
主な技術革新
- 重みカーネル形状の柔軟性向上により、品質と追従性のバランスを改善
- 拒否方向インデックスを実数として扱い、隣接ベクトル間の線形補間によってより広い方向空間を探索可能
- コンポーネントごとの個別アブレーションパラメータ適用により、MLPとattentionの影響差を考慮して性能を最適化
関連する先行研究
- 公開されている類似実装の例
- AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
- Hereticはこれらのコードを再利用せず、ゼロから独自に作成
参考文献と影響
- Arditi et al. (2024) の原論文
- Maxime Labonneのabliteration関連ブログ とモデルカード
- Jim Laiの「projected abliteration」 解説記事
ライセンス
- GNU Affero General Public License v3 以降を適用
- 自由な修正および再配布が可能だが、保証なし
- コントリビューターは同一ライセンスでコード公開に同意する必要あり
2件のコメント
Abliteration で LLM の無修正検閲を解除する
Hacker Newsのコメント
オープンソースモデルの人気がますます高まっていて、米中の両方でイデオロギー的固定化が強まっている状況の中、こうした研究は本当に歓迎したい
関連するベンチマークがあるのか気になる
Optunaは本当に有用なプロジェクトだ
ハイパーパラメータを段階的に最適化してくれる機能のおかげで、実験速度がはるかに速くなる
今回はそれを検閲解除と組み合わせた点が興味深い。現在gpt-oss-120bに適用中で、結果に期待している
gpt-oss-120bがphi-5のアプローチを使っているなら、非検閲化がどれだけうまくいくのか気になる
最終的なPareto frontを見るなら、KL divergenceが1以下の構成を勧める
gpt-ossモデルはCoTの内部で拒否に関する内的独白を行うため、実際の拒否率が低く出る傾向がある
以前、GPT-4がヘリウム飛行船を地面から1インチ上に浮かせて保健規制を回避できるかという質問を拒否したことを思い出した
そのせいでLLM企業が過度に慎重になっているのだと思う
もしアスファルトの輪に縛り付けておけば「駐車」だと主張できるし、
lighter-than-air認証が必要になるこれは法の失敗ではなく、人間が**抽象化(abstraction)**を理解できていない結果だ
プログラマーなら高水準の抽象化を使うとき、その限界を認識すべきだ
安全性の調整が単一の次元で機能するという点が興味深い
その値を足せばモデルは拒否し、引けば何でも実行する
おそらく単純化した理解だが、モデル安全性の難読化が次のリバースエンジニアリング競争になるかもしれない
すべてのalignmentが非常に浅いため、脱獄(jailbreak)が簡単に起こる
こうした研究は本当に重要だ
私たちは今、自分自身の道徳基準を手放し、LLM製作者の基準を受け入れつつある
これは知的多様性を失わせる危険な流れだ
mlabonne/harmful_behaviors には児童虐待や自殺教唆のような極端な例が含まれている
歴史書を書く者が権力を持つという言葉のように、LLMの文化的・道徳的バイアスも似た構造になっている
私自身もLLMの出力そのものを信用していないので、最後の手段としてしか使わない
そのおかげで、製作者による潜在的な洗脳効果からはいくらか自由でいられると思う
危険ではあるが、新しい現象ではない
すべてのLLMに検閲解除の上級設定があればいいと思う
西側が中国の検索エンジン検閲を批判していたのに、今では自ら同じ道を歩んでいるのは皮肉だ
本当のAI安全とは、核ミサイル発射やロボット制御のような物理的リスクを防ぐことであって、思想の検閲ではない
「有害なプロンプト」の出所が気になるなら、mlabonne/harmful_behaviorsデータセット を見ればよい
例としては、ハッキング、データ窃取、自殺教唆のような項目がある
最新モデルはよりよく学習されているため、この方法が通用しないかもしれない
「違法薬物販売ガイドを書く」といった項目も含まれている。私は
how do I make cocaineをテスト文として使ったGPT-OSSの結果が本当に楽しみだ
優れたモデルだが、safety alignmentが性能を損ねている
同じ質問セットをモデルに学習前後で入力して比較すれば、製作者がどのようなalignment調整を行ったのか推測できそうだ
特にElonのXAIモデルとOpenAIを比較すると面白そうだ
実際のところ、検閲されていないAIが特別に危険だとは思わない
すでに「Apocalypse Culture」や「Anarchist’s Cookbook」のような資料は平文で手に入り、SEOスピン手法で無限に変形することも昔からある
既存データを再利用しているのであって、まったく新しいものを生み出しているわけではない