7 ポイント 投稿者 unohee 10 일 전 | 2件のコメント | WhatsAppで共有

Suno、Udio、MusicGen、Stable Audio など、すべての商用AI音楽生成器は避けられない物理的制約を共有しています。生成された音声は必ず Residual Vector Quantization (RVQ) を通過しなければならないという点です。

RVQ は連続的な音声表現を離散コードブックベクトルにマッピングします。この過程で生じる量子化ギャップは不可逆です。人間の音楽だけで学習された音源分離モデルがAI生成音声を処理すると、このギャップは異常に大きく構造化された再構成残差として現れます。これがフォレンジック信号です。

既存の検出器(CLAM、SpecTTTra)は学習分布内ではよく機能しますが、新しい生成器では崩れます。ArtifactNet はAI音楽がどう聞こえるかではなく、なぜ物理的に異なるのかを検出します。


パイプライン(合計 4.0M パラメータ):

  1. ArtifactUNet (3.6M) — STFT magnitude に [0, 0.5] に制限された乗算マスクを予測する bounded-mask UNet。Demucs v4 残差を教師とする2段階の知識蒸留で学習。

  2. 7チャネル HPSS フォレンジック特徴 — 残差をハーモニック/パーカッシブ成分に分解した後、時間微分、スペクトラルフラックスと結合。

  3. 軽量 CNN (0.4M) — 4秒セグメントを処理し、曲単位の中央値で判定。


物理的証拠: 音源分離残差の有効帯域幅測定 (n=94):

  • 人間の音楽: 平均 1,996 Hz
  • AI 平均(22種類の生成器): 291 Hz
  • Suno v3.5: 170 Hz / Riffusion: 219 Hz / MusicGen: 255 Hz

アーキテクチャに関係なく、すべてのAI生成器が 200 Hz 付近に集中します。


ArtifactBench の結果(6,183トラック、22種類の生成器、学習-テスト重複なし):

モデル パラメータ F1 FPR
ArtifactNet 4M 0.983 1.5%
CLAM 194M 0.758 69.3%
SpecTTTra 19M 0.771 19.4%

CLAM は実際の音楽をAIと誤検出する割合が 69.3% に達し、判別器としては事実上無意味な水準です。SONICS/MoM ベンチマークは real セットを YouTube ID のみで配布していますが、その多くが削除または非公開化されており、原本基準での F1 比較が不可能です。ArtifactBench は直接収集・検証した real パーティションで3モデルを同一条件下で比較します。


限界: 44.1kHz 入力が必要; 低ビットレート MP3 では FPR ~8%; 単一パスの Demucs 洗浄攻撃では TPR が 94% に低下; 最新 Udio の TPR = 87%。


デモ (~5秒): https://demo.intrect.io/
論文: https://arxiv.org/abs/2604.16254
モデル + ベンチマーク (CC BY-NC 4.0): https://huggingface.co/intrect/artifactnet
特許出願中 (KR + PCT)

2件のコメント

 
unsure4000 9 일 전

ご自身の論文のように見えるのですが、合っていますか?

 
chisquare88 9 일 전

69%ではまだコイントスに近いですし、音楽生成AIに単体テストを追加しろと言っているのに近いように思います。