1 ポイント 投稿者 GN⁺ 2024-02-14 | 1件のコメント | WhatsAppで共有
  • Stable Audio デモは、単一のモデルが 44.1kHzステレオで長尺の音楽とサウンドエフェクトの両方を生成する様子を、音声サンプルで示している
  • 音楽生成は、Berlin techno、uplifting acoustic loop、disco、spa lobby meditation、drum solo のように、プロンプトだけで異なるジャンルや雰囲気を作り出すことに焦点を当てている
  • サウンドエフェクトでは、door slam、sports car、motorbike、fireworks、cave footsteps などを扱い、「high-quality, stereo」のような文句がプロンプトにあわせて使われている
  • 比較例は MusicCaps と AudioCaps のプロンプトを基準に、MusicGen-large、MusicGen-stereo、AudioLDM2、Audiogen-medium の結果を並べて聴けるよう構成されている
  • オートエンコーダ再構成の例では、元の録音と通過後の結果を比較し、オーディオ忠実度を確認できるようにしている

Stable Audio デモと生成例

  • デモサイトは Safari では正常に動作しない場合があるため、最適な体験のために Google Chrome の利用を推奨している
  • 関連資料として arXivstable-audio-toolsstable-audio-metrics を提供している
    • arXiv: Stable Audio 論文
    • stable-audio-tools: Stable Audio 再現用コード
    • stable-audio-metrics: Stable Audio 評価用コード
  • モデルは 可変長の長尺ステレオ音楽 を 44.1kHz で生成できる
    • 例のプロンプトには Berlin techno、uplifting acoustic loop、disco、calm meditation music、drum solo が含まれる
    • 一部のプロンプトでは BPM、楽器、雰囲気、地域スタイル、loop の有無まで指定している
  • 同じモデルで ステレオのサウンドエフェクト も 44.1kHz で生成する
    • 例のプロンプトには door slam、sports car passing by、motorbike passing by、fireworks、reverberant footsteps inside a large rocky cave が含まれる
    • サウンドエフェクトのプロンプトには「high-quality, stereo」を付け加えており、この方法が一般的に有効だと案内している

モデル比較とオートエンコーダ再構成

  • 長尺音楽の比較は MusicCaps プロンプト を基準に構成されている
    • Stable Audio: stereo, 44.1kHz
    • MusicGen-large: mono, 32kHz
    • MusicGen-stereo: stereo, 32kHz
    • AudioLDM2: mono, 48kHz
    • 比較に使われたプロンプトと音声は、論文で報告された定性研究に使用されている
  • サウンドエフェクトの比較は AudioCaps プロンプト を使用している
    • Stable Audio: stereo, 44.1kHz
    • Audiogen-medium: mono, 32kHz
    • AudioLDM2: mono, 48kHz
    • 無作為に選ばれた AudioCaps プロンプトは大きなステレオ移動を必要としないため、結果は比較的非空間的にレンダリングされている
  • オートエンコーダ(Autoencoder)セクションでは、オーディオ忠実度 を評価するための再構成比較を提供している
    • 左側には ground truth 録音、右側には ground truth 録音をオートエンコーダに通した結果が配置されている
    • 再構成結果はかなり透過的で、ground truth に非常に近いレベルである

1件のコメント

 
GN⁺ 2024-02-14
Hacker Newsのコメント
  • 興味深いことに、Stable Audioの開発のために雇われた Ed Newton-Rex は、リリース直後に著作権と学習データの問題を懸念して退社したとのこと
    その後、https://www.fairlytrained.org/ を立ち上げた
    参考: https://x.com/ednewtonrex

    • 生成モデルにおいて、開発者がモデルアーキテクチャを公開しておらず、テキストを別のメディアに変換するモデルであるなら、明示的なライセンスのないデータで学習したテキストエンコーダや、それに類する機能を一部利用していると見てよい
      画像やオーディオ断片のように数千万〜数億件のライブラリ項目を持つ権利者であっても、大規模リポジトリ内の10億未満のテキストトークンだけでは、テキストから対象メディアを生成するモデルのエンコーダ性能は低すぎる。Adobe の Firefly もこれに含まれる
      こうしたライブラリ内に類似データが多ければ特に有用だというのも誤解である。強力なテキストエンコーダがなければ、大半のテキスト→対象メディアモデルは、見た目や音が非常に平均的な結果しか生み出せない
      この疑いを最も簡単に解消する方法は、モデルアーキテクチャを公開することだ
      いずれにせよ、それがすべて事実だとしても、私たちが拡散モデルを語り、Fairly Trained という取り組みに注目する理由そのものが、誰かが明示的ライセンスのないデータで学習したからである
    • 彼を「Stable Audio を作るために雇われた人」と呼ぶのはやや誤解を招く。彼は Stability のオーディオグループにおける製品担当 VP という役員職だった
      重要な立場ではあるが、「作るために雇われた人」と言うと、リード開発者や研究者を連想させる
      音楽のバックグラウンドを持つ起業家だったことを考えると、退社もより理解しやすい
    • 興味深い解釈ではあるが、Stability に加わった時点でStable Diffusion の学習方法はすでによく知られていたので、かなり奇妙な立場でもある
    • 会社がどうせやることだったとしても、その会社で働く前に考えることはできなかったのだろうかと思う
      あるいは、それが自分の認証ビジネスモデルに必要な過程だったのかもしれない
    • 企業がモデルを学習する際に直面する著作権の壁には解決策が必要だ
      アーティストが一生聴いてきた音楽の影響を受けて音楽を作るのと変わらないと考える。根本的にはまったく同じことであり、音楽や芸術は真空状態では作れない
  • Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.
    90年代の Internet Explorer 時代に一周して戻ってきた感じがする。今回は支配的なブラウザがオープンソースである点がせめてもの違いだと思う
    誰か Chrome 向けに「Best viewed with Google Chrome」と書かれた動く GIF ボタンを作ってくれたらいいのに

    • ここにある
      ボタンを見る: https://indiscipline.github.io/post/best-viewed-in-google-ch...
    • Chrome はオープンソースではなく、Chromium がオープンソースだ。両者を混同しないほうがいい
    • Safari でもサイトは問題なく動いたし、特に不具合は感じなかった
  • Stable Diffusion と同様に、このモデルでもテキストプロンプトは有用な出力を得る方法の中で最も制御しにくい手段になるだろう
    MIDI を ControlNet とともに入力に使って、実質的にニューラルネットワーク・シンセサイザーのようにする姿は容易に想像できる

    • その通り。2年前に AI メロディープロジェクト(https://www.melodies.ai/) をやっていた頃から、テキストだけで高品質な完成曲を作るのは、しばらくの間は実現可能でも望ましくもないと考えていた
      むしろ音楽制作のさまざまな段階で、アーティストのプロセスを補助する形で AI を使うことに集中するほうがよい
    • 音楽ではそうかもしれない。しかし効果音については、テキストプロンプトはかなり良いユーザーインターフェースだと思う
    • メロディーをハミングしたり歌ったりした録音音声とテキストプロンプトを一緒に入力して、それに似たトラックを出力する方式が理想的だと思う
    • 多くの制御が必要ないときはうまく機能する。たとえば「テナーサックス奏者のフリージャズソロ、拍子記号なし」のようなプロンプトだ
    • Stable Diffusion ではテキストプロンプト以外にどんな入力がある? img2img や ControlNet のことを言っているのか?
  • 最新の音楽モデルである MusicGen、MusicLM と比べると、これは圧倒的に良い。Midjourney のようにサブスクで使える製品ページもあるようだ: https://www.stableaudio.com/
    残念ながら重み公開モデルではなく、API もなさそうだ。月額課金で UI 上から音声を生成する方式で、開発者が統合したりラップしたりできる形ではない

    • 制作中のゲームで使う効果音を作りたかったのだが、見る限りエンタープライズライセンスが必要そうだ(https://www.stableaudio.com/pricing)
      なぜ「月間アクティブユーザー 10万未満の商用製品」という条項にそのまま含まれず、別項目になっているのか気になる
    • 近いうちにCC ライセンス版と API が出るらしい
      モデルの進歩が非常に速いので、音楽分野にとってかなり大きな一年になりそうだ
    • 幸い、自宅でも学習は可能だ。より大きな問題はデータである
  • AIがまず高品質なサウンドライブラリがどんな音かを学習し、その後に学んだ能力をMIDIでそのライブラリの音をトリガーすることへ適用する段階が、まだ必要だと思う。
    そうすれば、音楽AIの創造性と完璧なオーディオ品質を両立できる。

    • 画像生成AIにもずっとそれを望んでいた。完成画像に対して魔法のように反復改善するより、AIが筆致で絵を描いたり彩色しようと試みる様子を見るほうが、ずっと格好良くて興味深い気がする。
      そのためにどんなデータセットやアーキテクチャを適用できるのかは分からないが、本当に面白そうだ。
    • MIDIで、たとえばラフに演奏されたギターや、浴室録音で生じる微妙なエコーのようなものをどうやって得るのか?
    • それってsuno.aiがやっていることではないのか?
  • ここでの進歩をけなしたいわけではなく、印象的ではある。
    ドラマーの立場からすると、「ドラムソロ」はかなり退屈な部類で、変な音も混ざっている。結局は想定する聴衆次第なのだろう。
    ちなみに現時点では、効果音も私の耳にはリアルには聞こえない。
    それでも進歩の幅は大きいし、よくやったと思う。

    • ドラマーの立場からすると、安定した4/4拍子の上で起きていることとして考えれば、その「ドラムソロ」は意外と聴いていて面白かった。
      ランダムっぽいが完全なランダムではない性質のせいで、かなり非定型なリズムパターンが出ている。即興でこんなふうにシンコペーションを入れられたらいいのにと思う。
      譜面に起こしてくれとは言わないでほしい。
      テンポの一貫性は素晴らしい。ただ、不要なノイズとランダムなシンバルの残響はモデルの限界を示している。
    • 印象的な試みではあるが、まだ実際に使える音楽や音を生成するにはほど遠い。
      すでにもっと良い音のライブラリ音楽トラックや効果音が何百万とある。それと競争するには生成AIへの莫大な投資が必要になるだろうが、テキストや画像と違って経済性があるとは思えない。
    • 音楽サンプルに転換部がないので、なおさらがっかりした。ほとんどの曲には転調やパーカッションの切り替えがある。
    • ドラムソロは、このモデルがドラムソロの本質をどれだけ取り逃しているかをよく示している。ドラマーではないが、聴いていてまったく楽しくない。
      だいたいテンポに合わせて適当にドラムを叩いている人のように聞こえる。
      ただし、エレベーター音楽のようなものはそれなりにこなしていて、それも予想どおりだ。
  • コードと学習向けの親切な案内は公開しつつ、モデルは公開しないという点が興味深い。
    匿名の人たちに、データローダーをApple Musicアカウントにつないで好き放題回してみろと、ほとんど懇願しているようなものだ。もちろん、誰かがそうしろと提案しているわけではない。

    • 推測するに、AudioSparxのライセンス済みストックオーディオライブラリを学習用に提供してもらう条件として、生成されたモデルを再配布しない条項があったのかもしれない。
  • 効果音生成というアイデアに一瞬期待したが、あの「足音」は信じられないほどひどい。

    • stableaudio.comで音楽生成を試してみたが、その通り、ひどい。それでもこういうモデルの開発速度は非常に速いので、1〜2年以内に驚くほど良くなっていても不思議ではないと思う。
  • 公開された重みはないという理解で合っている? どちらなのか明言しているものを見つけにくい。
    修正: ああ、これが物議を醸すコメントになるとは思わなかった。低評価する前に質問に答えてくれてもよかったのに、まあいいけど。

  • 「効果音プロンプトには通常 役に立つので ‘high-quality, stereo’ を付け加えます。」
    LLMに、ただもっと良い結果を出してくれと丁寧に頼むと出力が良くなると分かったのが面白い。

    • ときには古いカセットの音や、さらに古い傷だらけの78rpmレコードの音が欲しいこともある。
      コンピュータはいつもそうだが、私たちが意図したことではなく、要求したことを実行する。