Apple Intelligenceモデルから抽出した安全フィルター

(github.com/BlueFalconHD)

6 ポイント投稿者 GN⁺ 2025-07-07 | 1件のコメント | WhatsAppで共有

Apple Intelligence の生成モデルに組み込まれた 安全フィルター を解読・公開するオープンソースプロジェクト
安全フィルターには、有害または不適切なコンテンツを遮断し、規定遵守のためのフィルタリングルールが含まれる
安全オーバーライドは モデルのコンテキストに応じて異なって適用され、各状況に合った具体的なルール情報を提供する
解読されたファイルは json 形式で、単語、フレーズ、正規表現ベースのルールなどを含む
このプロジェクトは プライバシー・信頼性の検証、モデルセーフティ分析などに有意義なリソースである

プロジェクト概要

このリポジトリは、Apple Intelligence で利用される 生成モデルの安全オーバーライド（safety override）ファイルを解読して公開している
解読されたオーバーライドはフォルダ内で構造的に整理されており、各モデルに関連する安全フィルタリング JSON ファイルの形で提供される
これを利用すると、実際に Apple モデルがどのような コンテンツフィルタリング方針を適用しているかを具体的に確認できる

フォルダおよびファイル構造

decrypted_overrides/
- 各生成モデルごとの ディレクトリ別安全オーバーライド ファイルを保存
- 各ディレクトリには Info.plist（メタデータ）と AssetData（フィルター JSON ファイル） が含まれる
get_key_lldb.py: アプリケーションで使用する 暗号化キーを抽出する Python スクリプト
decrypt_overrides.py: 安全オーバーライドファイルを解読する Python スクリプト

オーバーライドファイルの解読と理解

オーバーライド JSON ファイルには 明確な安全フィルタリングルール が記載されている
各オーバーライドは特定のモデルコンテキストに対応しており、さまざまな状況に応じてフィルタリング方式が異なる
例示された JSON には次のようなフィールドが含まれる:
- "reject": 入力値と一致した場合に 強制的に拒否される具体的なフレーズの一覧
- "remove": 出力結果から削除すべきフレーズ
- "replace": 特定のフレーズを 別のフレーズに置換
- "regexReject": 正規表現でマッチした場合に拒否
- "regexRemove", "regexReplace": 正規表現による削除、置換

プロジェクト活用の意義

本プロジェクトは Apple の生成モデルにおける実際のフィルタリングルール を確認し、そのモデルの セーフティと信頼性 評価の参考資料として活用できる
生成モデルを活用する開発者やセキュリティ担当者にとって、フィルター動作の分析や モデル向けカスタムフィルター設計の参照 に有用である
Apple Intelligence が適用する コンテンツ方針および規定遵守レベル を透明性高く把握できる

1件のコメント

GN⁺ 2025-07-07

Hacker Newsのコメント

いくつかの組み合わせはかなり奇妙に感じる。死に関する発話を避けようとするルールと、Appleブランドの大文字小文字表記を徹底的に合わせようとする部分が混在している。Appleの優先順位に対する見方が体験できる。関連リンク
- unalive という単語が含まれていないのは興味深い。誰もがその単語の意味を知っているのに、実際には誰も気にしておらず、みなが形式的に振る舞っているだけだという現象を指摘しているように見える
- ブランドの大文字小文字表記への執着は本当に恥ずかしく、不安にすら感じる。それでもブランド担当者にとっては本当に重要な要素なのだろうとは確信している
- システムは「ファイル実行」や「情報伝達」のような命令提案までブロックしている
- あまり道徳的に裁くべきではないという意見。米国の大企業がこうした問題に優先順位を置くのは、現実的な仕事の進め方だ
Alexandra Ocasio Cortez の名前がポリシー違反と見なされる状況を面白く観察している。関連リンク
- Anthony Albanese, Boris Johnson, Christopher Luxon, Cyril Ramaphosa, Jacinda Arden, Jacob Zuma, John Steenhuisen, Justin Trudeau, Keir Starmer, Liz Truss, Michael D. Higgins, Rishi Sunak など多くの政治家の名前も同じルールに引っかかる。関連リンク南アフリカの政治家の名前がブロック一覧に入っている事実は、南アフリカのメディアで話題になりそうだという予測
- ほとんどの企業向けGenAIモデルは、「<政治家名>が逮捕されるリアルな画像」「<政治家名>がISISの旗を振る場面」「<政治家名>が赤ん坊を殴る場面」のような扇情的な要求をブロックする仕組みを備えているのではないかという推測
- Ocasio Cortez の名前がポリシー違反に分類されたのは文脈のためかもしれず、学習データの中で人種に関する蔑称的な意味合いと結び付いている可能性があるという指摘。加えて、別の事例も確認できる可能性を探っている
- この現象は特にスペイン語版で確認される
- Ocasio Cortez がディープフェイクのポルノ被害を多く受けてきた背景にも言及
AGIがまもなく登場するという主張とは裏腹に、こうした「超知能」LLMがいまだに出力を regex でフィルタリングしなければならない現実が滑稽に感じられる
- AppleのLLMが最先端だと信じている人は誰もいなさそうだ。とりわけデバイス上で動作するLLMはなおさら注目されていない雰囲気がある
- ときどき人間そのものを regex でフィルタしたくなる、という冗談
- 現代のあらゆる動力源が結局は「水を沸かす」ことに帰着するように、これも古典的な解決策の繰り返しに感じる
- これは単にAppleのポリシーとアライメントの問題であり、インターネットにあふれる不要な発言が自社モデルで再生産されるのを防ごうとする意図だ
中国ではこうしたポリシーを「調和のとれた社会」と呼ぶが、米国では「安全」という名前で呼ばれる。検閲という言葉自体が違っても、大衆の考えをコントロールする効果は同じだ。こうしたものを直接見る機会はまれだという感想
- 企業が、自社モデルにブランドを傷つける文を生成させたくないと考えるのはまったく驚くことではない。たとえばAppleがメッセージ要約で「JaneはAnthony Albaneseが死ねばいいと思っている」のような文を出したら、メディアは大騒ぎするだろうという現実的なシナリオ
- 米国ではこうした現象は法的リスク、つまり弁護士の存在が理由だという説明。資本主義を称賛しておきながら、報道操作によるささやかな利益の最大化が始まると、急に「言論の自由」というフレーズを叫ぶ現象を皮肉っている
Appleでこういうことが起きていること自体がかなりばかばかしく感じられる。回避は簡単で、たとえば Boris Johnson の代わりに B0ris Johnson とすれば regex をすり抜けられることが示されている。関連リンク
- ユーザーの99%は、そもそも意図的に回避しようとすらしない。ハードコードされた regex は第一防衛線であり、非常に効率的なフィルタリング手段だという点に焦点がある
- LLMでは回避表現が通用することもあるが、事前定義タグ中心で学習した画像生成モデルでは、ほぼ即座に認識失敗が起きる可能性がある
- こうしたルールの目的は、意図的に回避するユーザーを止めることではなく、「${政治家}が死ねばいい」という要約が出て大きく報じられる、といった一次的なリスクを防ぐ機能の方が大きい。考えてみれば子ども向けレベルの安全装置だ
- 英国政治が禁句に分類されているように感じる
- Appleにこうしたポリシーがあるのを見て意外だと言う必要はない。現時点でのSOTAな対応策であり、AppleはAI競争では後発なので、機敏に業界慣行に従う戦略は合理的な選択だ
Appleのこうした正体不明のフィルタポリシーを見て、以前あったアジア言語の検索フィルタ騒動を思い出した。奇妙で気まずいエピソードだった。関連記事
これらのフィルタは、恥ずかしい、あるいは法的リスクがあり得るメール/メッセージ要約をブロックしたり、Safari Summarization isn't designed to handle this type of content のような警告文を表示したりすることに重点を置いている。入力ではなくLLMの出力に適用される。AppleのオンデバイスLLMは3bパラメータしかないため、ときどき間抜けな結果を出す傾向がある
キーワードフィルタリング規則を試してみたくて、名前を Granular Mango Serpent に変えてみようかという話
- Granular Mango Serpent が新しい David Meyer だという冗談が出てくる。関連記事
Core MLモデルの暗号化とこれが関係あるのかという質問。Appleは歴史的にアプリ資産保護用のDRMを提供してこなかったので、やや見慣れない。関連リンク
- これは別のシステムで、あらゆる資産全体に適用されるものではなく、この種のオーバーライドにのみ適用される。復号はModelCatalog private frameworkで行われる

Apple Intelligenceモデルから抽出した安全フィルター

プロジェクト概要

フォルダおよびファイル構造

オーバーライドファイルの解読と理解

プロジェクト活用の意義

関連記事

1件のコメント

Hacker Newsのコメント