Stable Audio デモ
(stability-ai.github.io)- Stable Audio デモは、単一のモデルが 44.1kHzステレオで長尺の音楽とサウンドエフェクトの両方を生成する様子を、音声サンプルで示している
- 音楽生成は、Berlin techno、uplifting acoustic loop、disco、spa lobby meditation、drum solo のように、プロンプトだけで異なるジャンルや雰囲気を作り出すことに焦点を当てている
- サウンドエフェクトでは、door slam、sports car、motorbike、fireworks、cave footsteps などを扱い、「high-quality, stereo」のような文句がプロンプトにあわせて使われている
- 比較例は MusicCaps と AudioCaps のプロンプトを基準に、MusicGen-large、MusicGen-stereo、AudioLDM2、Audiogen-medium の結果を並べて聴けるよう構成されている
- オートエンコーダ再構成の例では、元の録音と通過後の結果を比較し、オーディオ忠実度を確認できるようにしている
Stable Audio デモと生成例
- デモサイトは Safari では正常に動作しない場合があるため、最適な体験のために Google Chrome の利用を推奨している
- 関連資料として
arXiv、stable-audio-tools、stable-audio-metricsを提供しているarXiv: Stable Audio 論文stable-audio-tools: Stable Audio 再現用コードstable-audio-metrics: Stable Audio 評価用コード
- モデルは 可変長の長尺ステレオ音楽 を 44.1kHz で生成できる
- 例のプロンプトには Berlin techno、uplifting acoustic loop、disco、calm meditation music、drum solo が含まれる
- 一部のプロンプトでは BPM、楽器、雰囲気、地域スタイル、loop の有無まで指定している
- 同じモデルで ステレオのサウンドエフェクト も 44.1kHz で生成する
- 例のプロンプトには door slam、sports car passing by、motorbike passing by、fireworks、reverberant footsteps inside a large rocky cave が含まれる
- サウンドエフェクトのプロンプトには「high-quality, stereo」を付け加えており、この方法が一般的に有効だと案内している
モデル比較とオートエンコーダ再構成
- 長尺音楽の比較は MusicCaps プロンプト を基準に構成されている
- Stable Audio: stereo, 44.1kHz
- MusicGen-large: mono, 32kHz
- MusicGen-stereo: stereo, 32kHz
- AudioLDM2: mono, 48kHz
- 比較に使われたプロンプトと音声は、論文で報告された定性研究に使用されている
- サウンドエフェクトの比較は AudioCaps プロンプト を使用している
- Stable Audio: stereo, 44.1kHz
- Audiogen-medium: mono, 32kHz
- AudioLDM2: mono, 48kHz
- 無作為に選ばれた AudioCaps プロンプトは大きなステレオ移動を必要としないため、結果は比較的非空間的にレンダリングされている
- オートエンコーダ(Autoencoder)セクションでは、オーディオ忠実度 を評価するための再構成比較を提供している
- 左側には ground truth 録音、右側には ground truth 録音をオートエンコーダに通した結果が配置されている
- 再構成結果はかなり透過的で、ground truth に非常に近いレベルである
1件のコメント
Hacker Newsのコメント
興味深いことに、Stable Audioの開発のために雇われた Ed Newton-Rex は、リリース直後に著作権と学習データの問題を懸念して退社したとのこと
その後、https://www.fairlytrained.org/ を立ち上げた
参考: https://x.com/ednewtonrex
画像やオーディオ断片のように数千万〜数億件のライブラリ項目を持つ権利者であっても、大規模リポジトリ内の10億未満のテキストトークンだけでは、テキストから対象メディアを生成するモデルのエンコーダ性能は低すぎる。Adobe の Firefly もこれに含まれる
こうしたライブラリ内に類似データが多ければ特に有用だというのも誤解である。強力なテキストエンコーダがなければ、大半のテキスト→対象メディアモデルは、見た目や音が非常に平均的な結果しか生み出せない
この疑いを最も簡単に解消する方法は、モデルアーキテクチャを公開することだ
いずれにせよ、それがすべて事実だとしても、私たちが拡散モデルを語り、Fairly Trained という取り組みに注目する理由そのものが、誰かが明示的ライセンスのないデータで学習したからである
重要な立場ではあるが、「作るために雇われた人」と言うと、リード開発者や研究者を連想させる
音楽のバックグラウンドを持つ起業家だったことを考えると、退社もより理解しやすい
あるいは、それが自分の認証ビジネスモデルに必要な過程だったのかもしれない
アーティストが一生聴いてきた音楽の影響を受けて音楽を作るのと変わらないと考える。根本的にはまったく同じことであり、音楽や芸術は真空状態では作れない
Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.90年代の Internet Explorer 時代に一周して戻ってきた感じがする。今回は支配的なブラウザがオープンソースである点がせめてもの違いだと思う
誰か Chrome 向けに「Best viewed with Google Chrome」と書かれた動く GIF ボタンを作ってくれたらいいのに
ボタンを見る: https://indiscipline.github.io/post/best-viewed-in-google-ch...
Stable Diffusion と同様に、このモデルでもテキストプロンプトは有用な出力を得る方法の中で最も制御しにくい手段になるだろう
MIDI を ControlNet とともに入力に使って、実質的にニューラルネットワーク・シンセサイザーのようにする姿は容易に想像できる
むしろ音楽制作のさまざまな段階で、アーティストのプロセスを補助する形で AI を使うことに集中するほうがよい
最新の音楽モデルである MusicGen、MusicLM と比べると、これは圧倒的に良い。Midjourney のようにサブスクで使える製品ページもあるようだ: https://www.stableaudio.com/
残念ながら重み公開モデルではなく、API もなさそうだ。月額課金で UI 上から音声を生成する方式で、開発者が統合したりラップしたりできる形ではない
なぜ「月間アクティブユーザー 10万未満の商用製品」という条項にそのまま含まれず、別項目になっているのか気になる
モデルの進歩が非常に速いので、音楽分野にとってかなり大きな一年になりそうだ
AIがまず高品質なサウンドライブラリがどんな音かを学習し、その後に学んだ能力をMIDIでそのライブラリの音をトリガーすることへ適用する段階が、まだ必要だと思う。
そうすれば、音楽AIの創造性と完璧なオーディオ品質を両立できる。
そのためにどんなデータセットやアーキテクチャを適用できるのかは分からないが、本当に面白そうだ。
ここでの進歩をけなしたいわけではなく、印象的ではある。
ドラマーの立場からすると、「ドラムソロ」はかなり退屈な部類で、変な音も混ざっている。結局は想定する聴衆次第なのだろう。
ちなみに現時点では、効果音も私の耳にはリアルには聞こえない。
それでも進歩の幅は大きいし、よくやったと思う。
ランダムっぽいが完全なランダムではない性質のせいで、かなり非定型なリズムパターンが出ている。即興でこんなふうにシンコペーションを入れられたらいいのにと思う。
譜面に起こしてくれとは言わないでほしい。
テンポの一貫性は素晴らしい。ただ、不要なノイズとランダムなシンバルの残響はモデルの限界を示している。
すでにもっと良い音のライブラリ音楽トラックや効果音が何百万とある。それと競争するには生成AIへの莫大な投資が必要になるだろうが、テキストや画像と違って経済性があるとは思えない。
だいたいテンポに合わせて適当にドラムを叩いている人のように聞こえる。
ただし、エレベーター音楽のようなものはそれなりにこなしていて、それも予想どおりだ。
コードと学習向けの親切な案内は公開しつつ、モデルは公開しないという点が興味深い。
匿名の人たちに、データローダーをApple Musicアカウントにつないで好き放題回してみろと、ほとんど懇願しているようなものだ。もちろん、誰かがそうしろと提案しているわけではない。
効果音生成というアイデアに一瞬期待したが、あの「足音」は信じられないほどひどい。
公開された重みはないという理解で合っている? どちらなのか明言しているものを見つけにくい。
修正: ああ、これが物議を醸すコメントになるとは思わなかった。低評価する前に質問に答えてくれてもよかったのに、まあいいけど。
参考: https://github.com/Stability-AI/stable-audio-tools
「効果音プロンプトには通常 役に立つので ‘high-quality, stereo’ を付け加えます。」
LLMに、ただもっと良い結果を出してくれと丁寧に頼むと出力が良くなると分かったのが面白い。
コンピュータはいつもそうだが、私たちが意図したことではなく、要求したことを実行する。