Google DeepMind、LLMが生成したテキストをウォーターマーク化して検出するSynthIDをオープンソース公開

(github.com/google-deepmind)

7 ポイント投稿者 GN⁺ 2024-10-31 | まだコメントはありません。 | WhatsAppで共有

Google DeepMindのSynthIDは、AI生成の画像、音声、テキスト、動画に直接デジタルウォーターマークを埋め込み、AI生成コンテンツにウォーターマークを適用して識別する技術
- Nature論文で、この手法のより完全な技術的説明を読むことができる
SynthID Textは、開発者がテキスト生成でウォーターマークを利用できるよう、オープンソースとして提供される

ウォーターマークの適用

SynthID Textは、Top-KおよびTop-Pの後にモデルの生成パイプラインへ適用されるLogitsプロセッサ
疑似乱数のg-関数を用いてモデルのロジットを強化し、テキスト品質に大きな影響を与えずに、そのテキストがモデルによって生成されたかどうかの判定に役立つ形でウォーターマーク情報を符号化する
ウォーターマークは、g-関数をパラメータ化し、生成時にどのように適用されるかを構成するために設定される
使用する各ウォーターマーク構成は、安全かつ非公開で保管する必要がある
ウォーターマーク構成に必要な2つの必須パラメータ
- keysパラメータ: モデルの語彙全体にわたってg-関数スコアを計算するために使われる一意の乱数整数の一覧。この一覧の長さが適用されるウォーターマーク層の数を決定する
- ngram_lenパラメータ: 堅牢性と検出可能性のバランスを取るために使用される。値が大きいほどウォーターマークは検出しやすくなるが、変更にはより脆弱になる。デフォルト値として5が適切
性能要件に応じてウォーターマークを追加構成できる
- サンプリングテーブルはsampling_table_sizeとsampling_table_seedの2つの属性で構成される
- サンプリング時に偏りがなく安定したg-関数を保証するには、sampling_table_sizeを少なくとも2^16以上にする必要がある
- ただし、サンプリングテーブルのサイズは推論時に必要なメモリ量へ影響する
- sampling_table_seedには任意の整数を使用できる
- 直前トークンのcontext_history_size内で繰り返されるn-gramは、検出可能性を高めるためウォーターマークされない
SynthID Textのウォーターマークでテキストを生成するために、モデルへの追加学習は不要
モデルの.generate()メソッドに渡すウォーターマーク構成だけが必要で、これによりSynthID TextのLogitsプロセッサが有効になる
Hugging Faceのブログ記事とSpaceで、Transformersライブラリにウォーターマークを適用する方法を示すコード例を確認できる

ウォーターマークの検出と検証可能性

ウォーターマーク検出は確率的
ベイズ検出器がHugging Face TransformersおよびGitHubで提供される
この検出器は、ウォーターマーク済み、ウォーターマークなし、または不確実の3つの検出状態を出力できる
2つの閾値を設定し、特定の偽陽性率と偽陰性率を達成するよう動作をカスタマイズできる
同一のトークナイザを使うモデルは、検出器の訓練セットにウォーターマークを共有するすべてのモデルのサンプルが含まれている限り、ウォーターマーク構成と検出器を共有できる
学習済み検出器があれば、それをユーザーや一般公開向けに公開・提供するかどうか、その方法を選択できる
- 完全非公開オプションでは、検出器をいかなる形でも公開または露出しない
- 半非公開オプションでは、検出器自体は公開しないがAPIを通じて提供する
- 公開オプションでは、他者がダウンロードして利用できるよう検出器を公開する

制限事項

SynthID Textのウォーターマークは一部の変換に強い一方、制限もある
- ウォーターマークの適用は、正確性を下げずに生成を強化できる余地が少ないため、事実ベースの応答では効果が低い
- AI生成テキストを大幅に書き直したり、別の言語へ翻訳したりすると、検出器の信頼度スコアが大きく低下する可能性がある
SynthID Textは、悪意ある攻撃者による加害行為を直接防ぐようには設計されていない
ただし、悪意ある目的でAI生成コンテンツを使いにくくすることはでき、他のアプローチと組み合わせることで、コンテンツ種別やプラットフォームをまたいでより広いカバレッジを提供できる

GN⁺の見解

SynthID Textは、ウォーターマークを通じてAI生成コンテンツの出所を識別できる有用な機能を提供する
ただし、ウォーターマーク自体はコンテンツの真正性を保証しない。誤情報や有害なコンテンツにもウォーターマークを適用できるため
そのため、ウォーターマークに加えて、コンテンツ内容そのものの信頼性検証も必要になるだろう
Hugging Faceのような主要ライブラリに統合され、開発者が容易に活用できる点は大きな利点
一方で、検出器を公開するかどうかは慎重に判断すべき事項。完全公開するとウォーターマークを回避しようとする試みが増える可能性があるため
全体として、AI生成コンテンツが急速に広がる状況において、出所識別のための技術としてSynthID Textの重要性は高まるとみられる

Google DeepMind、LLMが生成したテキストをウォーターマーク化して検出するSynthIDをオープンソース公開

ウォーターマークの適用

ウォーターマークの検出と検証可能性

制限事項

GN⁺の見解

関連記事

まだコメントはありません。