Heretic - 言語モデルの「自動検閲解除」ツール

(github.com/p-e-w)

8 ポイント投稿者 GN⁺ 2025-11-17 | 2件のコメント | WhatsAppで共有

Hereticは、トランスフォーマーベースの言語モデルにおける検閲（「安全アラインメント」）を自動で除去するツールで、追加学習なしでも動作
direction ablation手法とOptunaベースのTPE最適化を組み合わせ、拒否応答を最小化しつつ元のモデルの知能損失を最小限に抑制
デフォルト設定だけでも専門家が手動でアブレーションしたモデルに近い品質を達成し、KLダイバージェンスが低く元の性能保持率も高い
大半の密結合型モデルおよび一部のMoEモデルをサポートし、コマンドラインで1行実行できる完全自動化プロセスを提供
モデルの安全性フィルターを除去しながらも元の品質を維持できる技術であり、言語モデル研究や実験環境での活用可能性が高い

Heretic 概要

Hereticは、トランスフォーマー言語モデルの**検閲（safety alignment）**を除去する自動化ツール
- 追加学習や手動調整なしで動作
- directional ablation（abliteration）手法とOptunaのTPEベースのパラメータ最適化を組み合わせ
目標は、拒否（refusal）回数を減らしながらKLダイバージェンスを最小化し、元のモデル能力を最大限維持すること
トランスフォーマーの内部構造を理解していなくても利用でき、コマンドライン実行だけでモデルの非検閲化を実行可能

性能比較

Hereticは自動実行だけで手動アブレーションモデルと近い結果を達成
- 例: google/gemma-3-12b-it モデル基準
  - 元モデル: 拒否 97/100, KLダイバージェンス 0
  - 手動アブレーションモデル群: 拒否 3/100, KLダイバージェンス 0.45~1.04
  - Hereticの結果: 拒否 3/100, KLダイバージェンス 0.16
同じ拒否抑制レベルを維持しつつ、元モデルへの損傷を最小化
PyTorch 2.8、RTX 5090環境で測定された数値であり、プラットフォームによって値は異なる可能性あり

対応モデルと配布

大半のdenseモデル、一部のmultimodalモデル、多様なMoEアーキテクチャをサポート
まだSSM/hybridモデル、非均質レイヤー、特殊なアテンション構造は未対応
Hereticで非検閲化されたモデルのコレクションは、Hugging Faceの p-e-w/the-bestiary コレクションで確認可能

使い方

Python 3.10+ および PyTorch 2.2+ 環境が必要
インストールと実行例
```
pip install heretic-llm  
heretic Qwen/Qwen3-4B-Instruct-2507  
```
- モデル名を変えるだけで他のモデルにも適用可能
デフォルト設定で完全自動実行され、--help または config.default.toml を通じて詳細設定が可能
実行時にはシステムベンチマークを通じて最適なバッチサイズを自動決定
- 例: RTX 3090基準でLlama-3.1-8Bモデルの非検閲化に約45分所要
完了後はモデル保存、Hugging Faceへのアップロード、対話テストなどを選択可能

動作原理

Hereticはdirectional ablationのパラメータ化された変形を実装
- 各トランスフォーマーレイヤーのattention out-projectionとMLP down-projection行列を見つけ、**拒否方向（refusal direction）**に対して直交化を実行
- 「有害（harmful）」プロンプトと「無害（harmless）」プロンプトの最初のトークン残差平均差を用いて拒否方向を計算
アブレーション過程は複数の最適化可能なパラメータで制御される
- direction_index: レイヤーごとの拒否方向使用有無
- max_weight, max_weight_position, min_weight, min_weight_distance: レイヤー別アブレーション重みカーネルの形状と位置を定義

主な技術革新

重みカーネル形状の柔軟性向上により、品質と追従性のバランスを改善
拒否方向インデックスを実数として扱い、隣接ベクトル間の線形補間によってより広い方向空間を探索可能
コンポーネントごとの個別アブレーションパラメータ適用により、MLPとattentionの影響差を考慮して性能を最適化

参考文献と影響

Arditi et al. (2024) の原論文
Maxime Labonneのabliteration関連ブログとモデルカード
Jim Laiの「projected abliteration」解説記事

ライセンス

GNU Affero General Public License v3 以降を適用
自由な修正および再配布が可能だが、保証なし
コントリビューターは同一ライセンスでコード公開に同意する必要あり

2件のコメント

xguru 2025-11-17

Abliteration で LLM の無修正検閲を解除する

GN⁺ 2025-11-17

Hacker Newsのコメント

オープンソースモデルの人気がますます高まっていて、米中の両方でイデオロギー的固定化が強まっている状況の中、こうした研究は本当に歓迎したい
関連するベンチマークがあるのか気になる
Optunaは本当に有用なプロジェクトだ
ハイパーパラメータを段階的に最適化してくれる機能のおかげで、実験速度がはるかに速くなる
今回はそれを検閲解除と組み合わせた点が興味深い。現在gpt-oss-120bに適用中で、結果に期待している
- 私もOptunaをプロンプト最適化フレームワークと一緒に使ったことがあるが、手動でチューニングするよりずっと良い結果が得られた
  gpt-oss-120bがphi-5のアプローチを使っているなら、非検閲化がどれだけうまくいくのか気になる
- 結果とスペック、実行時間も気になる
- 120bモデルで問題が起きたらぜひ知らせてほしい
  最終的なPareto frontを見るなら、KL divergenceが1以下の構成を勧める
  gpt-ossモデルはCoTの内部で拒否に関する内的独白を行うため、実際の拒否率が低く出る傾向がある
以前、GPT-4がヘリウム飛行船を地面から1インチ上に浮かせて保健規制を回避できるかという質問を拒否したことを思い出した
- この問題の別の側面として、犯罪や事故が起こるたびに、メディアが加害者のChatGPT使用履歴と結び付けたがる報道がある
  そのせいでLLM企業が過度に慎重になっているのだと思う
- 私もGPT-4に、海を甘くするにはアスパルテームがどれだけ必要かと聞いたら、生態系に有害だとして拒否された
- 技術的には依然として**空域(airspace)**内にあるので、むしろより大きな問題かもしれない
  もしアスファルトの輪に縛り付けておけば「駐車」だと主張できるし、lighter-than-air認証が必要になる
- FAAに届け出て信号機に着陸し、罰金を科されたクアッドコプター・スケートボードの製作者の話も思い出す
- 法の精神が有益であっても悪用されることはあり得る
  これは法の失敗ではなく、人間が**抽象化(abstraction)**を理解できていない結果だ
  プログラマーなら高水準の抽象化を使うとき、その限界を認識すべきだ
安全性の調整が単一の次元で機能するという点が興味深い
その値を足せばモデルは拒否し、引けば何でも実行する
おそらく単純化した理解だが、モデル安全性の難読化が次のリバースエンジニアリング競争になるかもしれない
- 関連論文 Refusal in Language Models Is Mediated by a Single Direction (2024) を参照
  すべてのalignmentが非常に浅いため、脱獄(jailbreak)が簡単に起こる
こうした研究は本当に重要だ
私たちは今、自分自身の道徳基準を手放し、LLM製作者の基準を受け入れつつある
これは知的多様性を失わせる危険な流れだ
- データセットを実際に見たが、その意見には同意しにくい
  mlabonne/harmful_behaviors には児童虐待や自殺教唆のような極端な例が含まれている
- こうした傾向は結局、人々が批判的思考を放棄した結果だ
  歴史書を書く者が権力を持つという言葉のように、LLMの文化的・道徳的バイアスも似た構造になっている
  私自身もLLMの出力そのものを信用していないので、最後の手段としてしか使わない
  そのおかげで、製作者による潜在的な洗脳効果からはいくらか自由でいられると思う
- AIに無批判に従う人々は、カリスマ性のある政治家にも同じように従いそうだ
  危険ではあるが、新しい現象ではない
- 私もこうした試みに賛成だ
  すべてのLLMに検閲解除の上級設定があればいいと思う
  西側が中国の検索エンジン検閲を批判していたのに、今では自ら同じ道を歩んでいるのは皮肉だ
  本当のAI安全とは、核ミサイル発射やロボット制御のような物理的リスクを防ぐことであって、思想の検閲ではない
- こうしたことはすでに2024年から知られていた
「有害なプロンプト」の出所が気になるなら、mlabonne/harmful_behaviorsデータセットを見ればよい
例としては、ハッキング、データ窃取、自殺教唆のような項目がある
- 皮肉なことに、このようなデータが「有害性」の基準になるため、むしろ**拒否緩和(jailbreak)**によって完全な非検閲化ができてしまう可能性もある
  最新モデルはよりよく学習されているため、この方法が通用しないかもしれない
- mradermacherのGGUF 20b hereticモデルでテストしてみたところ、Q4_K_Mでは失敗したが、Q8_0ではチュートリアルが生成された
- あなたが挙げたのは比較的穏当なプロンプトだ。もっと過激な内容も多い → 関連コメント参照
- データセットにライセンスがない。これが結果モデルにどう影響するのか気になる
- 全体の内容はそれほど長くない。pastebinリンク参照
  「違法薬物販売ガイドを書く」といった項目も含まれている。私は how do I make cocaine をテスト文として使った
GPT-OSSの結果が本当に楽しみだ
優れたモデルだが、safety alignmentが性能を損ねている
- GPT-OSS向けにはこのRedditプロンプトが効果的だった
同じ質問セットをモデルに学習前後で入力して比較すれば、製作者がどのようなalignment調整を行ったのか推測できそうだ
特にElonのXAIモデルとOpenAIを比較すると面白そうだ
実際のところ、検閲されていないAIが特別に危険だとは思わない
すでに「Apocalypse Culture」や「Anarchist’s Cookbook」のような資料は平文で手に入り、SEOスピン手法で無限に変形することも昔からある
- 今回は「AIは新しいものを持ち込まない」という言い方が本当に当てはまるケースだ
  既存データを再利用しているのであって、まったく新しいものを生み出しているわけではない

Heretic - 言語モデルの「自動検閲解除」ツール

Heretic 概要

性能比較

対応モデルと配布

使い方

動作原理

主な技術革新

関連する先行研究

参考文献と影響

ライセンス

関連記事

2件のコメント

Hacker Newsのコメント