- 潜在拡散モデル(Latent Diffusion Model)
- 事前学習済みオートエンコーダの潜在エンコーディング空間で動作する拡散モデル
- 拡散モデルの学習および推論速度を大幅に向上
- 拡散モデルを使ってオーディオを生成する際に生じる主要な問題の1つは、拡散モデルが一般に固定サイズの出力を生成するよう訓練される点
- 30秒のオーディオクリップで学習すると、30秒単位でしかオーディオを生成できない
- これは楽曲全体を生成する場合のように、長さが大きく異なるオーディオを学習・生成しようとする際に問題となる
- オーディオ拡散モデルは、長いオーディオファイルからランダムに切り出したオーディオチャンクを、拡散モデルの訓練長に合わせて切り詰めたりパディングしたりして訓練する傾向がある
- 音楽の場合、これによりモデルは音楽フレーズの途中で始まったり終わったりする任意の楽曲セクションを生成しがちになる
- Stable Audio は、オーディオファイルの長さや開始時刻に加え、テキストメタデータによっても条件付けされるオーディオ向け潜在拡散モデル
- このタイミング制御機能により、訓練ウィンドウサイズまでの指定した長さのオーディオを生成可能
- 最新のディフュージョンサンプリング手法を使う Stable Audio モデルは、44.1kHz のサンプルレートで 95 秒分のステレオオーディオを NVIDIA A100 GPU 上で 1 秒以内に生成可能
- Stability AI の Generative Audio 研究所である Harmonai が開発
- Moûsai で使われた 907M(9億700万)パラメータの U-Net モデルをベースにしている
- Stable Audio モデルは、AudioSparx という主要な音楽プロバイダが提供した、音楽、サウンドエフェクト、単一楽器ステムを含む 800,000 件以上のオーディオファイルからなるデータセットで訓練
- 今後の作業として、モデルアーキテクチャ、データセット、訓練手順を改善し、出力品質、制御性、推論速度、出力長を向上させる予定
- Harmonai は Stable Audio をベースにしたオープンソースモデルと、オーディオ生成モデル訓練用のトレーニングコードを公開する計画
1件のコメント
Hacker Newsの意見