Stable Audio - 高速なタイミング制御型 Latent Audio Diffusion

(stability.ai)

5 ポイント投稿者 GN⁺ 2023-09-14 | 1件のコメント | WhatsAppで共有

潜在拡散モデル（Latent Diffusion Model）
- 事前学習済みオートエンコーダの潜在エンコーディング空間で動作する拡散モデル
- 拡散モデルの学習および推論速度を大幅に向上
拡散モデルを使ってオーディオを生成する際に生じる主要な問題の1つは、拡散モデルが一般に固定サイズの出力を生成するよう訓練される点
- 30秒のオーディオクリップで学習すると、30秒単位でしかオーディオを生成できない
- これは楽曲全体を生成する場合のように、長さが大きく異なるオーディオを学習・生成しようとする際に問題となる
オーディオ拡散モデルは、長いオーディオファイルからランダムに切り出したオーディオチャンクを、拡散モデルの訓練長に合わせて切り詰めたりパディングしたりして訓練する傾向がある
音楽の場合、これによりモデルは音楽フレーズの途中で始まったり終わったりする任意の楽曲セクションを生成しがちになる
Stable Audio は、オーディオファイルの長さや開始時刻に加え、テキストメタデータによっても条件付けされるオーディオ向け潜在拡散モデル
- このタイミング制御機能により、訓練ウィンドウサイズまでの指定した長さのオーディオを生成可能
最新のディフュージョンサンプリング手法を使う Stable Audio モデルは、44.1kHz のサンプルレートで 95 秒分のステレオオーディオを NVIDIA A100 GPU 上で 1 秒以内に生成可能
Stability AI の Generative Audio 研究所である Harmonai が開発
Moûsai で使われた 907M（9億700万）パラメータの U-Net モデルをベースにしている
Stable Audio モデルは、AudioSparx という主要な音楽プロバイダが提供した、音楽、サウンドエフェクト、単一楽器ステムを含む 800,000 件以上のオーディオファイルからなるデータセットで訓練
今後の作業として、モデルアーキテクチャ、データセット、訓練手順を改善し、出力品質、制御性、推論速度、出力長を向上させる予定
Harmonai は Stable Audio をベースにしたオープンソースモデルと、オーディオ生成モデル訓練用のトレーニングコードを公開する計画

1件のコメント

GN⁺ 2023-09-14

Hacker Newsの意見

この記事では、高速なタイミング条件付きの潜在オーディオ拡散技術「Stable Audio」について議論している。
一部のユーザーは、生成されたソロピアノ音楽はクリーンで興味深いと評価し、より柔軟に活用するために楽譜へ簡単に変換できるのではないかと提案した。
オーディオやビジュアルの分野では、画像のレイヤーやブラシストローク、音楽の構成トラックのような、より構造的または記号的な出力をAIが生成することへの需要がある。
特に音楽的な背景を持つ一部のユーザーは、生成された音楽作品に感銘を受けず、反復的で想像力に乏しいと評価した。
この技術は、ゲームや高品質な音楽が優先されない他のアプリケーションで、背景音楽を生成するために使える可能性がある。
あるユーザーは、この技術がSpotifyで個人の好みに合わせた音楽を生成するために使われる可能性があると提案した。
モデルが空間オーディオの概念をサポートまたは「理解」しているのかへの関心がある。たとえば、アラーム音が円形に移動する音などである。
一部のユーザーは、メロディー、コード進行、または演奏データのような入力を受け取れる技術への需要を示し、これは新世代のオーディオツールの可能性を示唆している。
一部のユーザーは、オーディオサンプルにおける「不気味の谷」効果を指摘しており、それは音が混ざり合っていて、明瞭な音楽的ボイスが欠けていることを意味する。
こうした批判にもかかわらず、一部のユーザーはこのような技術の存在に感謝を示し、GoogleやMetaのような企業による以前の嘲笑と対比した。

Stable Audio - 高速なタイミング制御型 Latent Audio Diffusion

関連記事

1件のコメント

Hacker Newsの意見