- Apple Intelligence の生成モデルに組み込まれた 安全フィルター を解読・公開するオープンソースプロジェクト
- 安全フィルターには、有害または不適切なコンテンツを遮断し、規定遵守のためのフィルタリングルールが含まれる
- 安全オーバーライドは モデルのコンテキストに応じて異なって適用され、各状況に合った具体的なルール情報を提供する
- 解読されたファイルは json 形式で、単語、フレーズ、正規表現ベースのルールなどを含む
- このプロジェクトは プライバシー・信頼性の検証、モデルセーフティ分析などに有意義なリソースである
プロジェクト概要
- このリポジトリは、Apple Intelligence で利用される 生成モデルの安全オーバーライド(safety override)ファイルを解読して公開している
- 解読されたオーバーライドはフォルダ内で構造的に整理されており、各モデルに関連する安全フィルタリング JSON ファイルの形で提供される
- これを利用すると、実際に Apple モデルがどのような コンテンツフィルタリング方針を適用しているかを具体的に確認できる
フォルダおよびファイル構造
decrypted_overrides/
- 各生成モデルごとの ディレクトリ別安全オーバーライド ファイルを保存
- 各ディレクトリには Info.plist(メタデータ)と AssetData(フィルター JSON ファイル) が含まれる
get_key_lldb.py: アプリケーションで使用する 暗号化キーを抽出する Python スクリプト
decrypt_overrides.py: 安全オーバーライドファイルを 解読する Python スクリプト
オーバーライドファイルの解読と理解
- オーバーライド JSON ファイルには 明確な安全フィルタリングルール が記載されている
- 各オーバーライドは特定のモデルコンテキストに対応しており、さまざまな状況に応じてフィルタリング方式が異なる
- 例示された JSON には次のようなフィールドが含まれる:
"reject": 入力値と一致した場合に 強制的に拒否される具体的なフレーズの一覧
"remove": 出力結果から 削除すべきフレーズ
"replace": 特定のフレーズを 別のフレーズに置換
"regexReject": 正規表現でマッチした場合に拒否
"regexRemove", "regexReplace": 正規表現による削除、置換
プロジェクト活用の意義
- 本プロジェクトは Apple の生成モデルにおける実際のフィルタリングルール を確認し、そのモデルの セーフティと信頼性 評価の参考資料として活用できる
- 生成モデルを活用する開発者やセキュリティ担当者にとって、フィルター動作の分析や モデル向けカスタムフィルター設計の参照 に有用である
- Apple Intelligence が適用する コンテンツ方針および規定遵守レベル を透明性高く把握できる
1件のコメント
Hacker Newsのコメント
unaliveという単語が含まれていないのは興味深い。誰もがその単語の意味を知っているのに、実際には誰も気にしておらず、みなが形式的に振る舞っているだけだという現象を指摘しているように見えるBoris Johnsonの代わりにB0ris Johnsonとすれば regex をすり抜けられることが示されている。関連リンクSafari Summarization isn't designed to handle this type of contentのような警告文を表示したりすることに重点を置いている。入力ではなくLLMの出力に適用される。AppleのオンデバイスLLMは3bパラメータしかないため、ときどき間抜けな結果を出す傾向があるGranular Mango Serpentに変えてみようかという話