Stable Audio デモ
(stability-ai.github.io)案内
- このWebサイトはSafariでは正常に動作しない可能性があり、最良の体験のためにGoogle Chromeの使用を推奨。
Stable Audio 生成
- このモデルは44.1kHzのステレオ音楽をさまざまな長さで生成でき、例としてベルリン・テクノ、レイヴ、ドラムマシン、シンセサイザー、ダークな雰囲気の音楽などがある。
- 従来の最先端モデルとは異なり、このモデルは44.1kHzのステレオ効果音も生成でき、ドアが閉まる音、スポーツカーやオートバイが通り過ぎる音、花火、洞窟内の足音などの例がある。
- このWebサイトのすべての例は、音楽と効果音の両方を44.1kHzステレオで生成できる同一モデルによって作成されている。
ステレオ音楽の長尺生成: 最新技術との比較
- マンドリン演奏と口笛、ギター、フルートなどが調和した音楽を生成するモデルと他モデルとの比較を通じて、音質評価が可能。
- ピアノのメロディーとスネアロール、キックパターン、ハイハット、拍手、シンセサイザーのリードメロディーが組み合わさった商用音楽生成も比較対象となっている。
効果音: 最新技術との比較
- エンジンのクリック音と高速回転音、大きくさえずる鳥の声などを生成するモデルと他モデルとの比較を通じて、音質評価が可能。
- 選択されたプロンプトは大きなステレオの動きを必要としないため、比較的非空間的なレンダリング結果を示す。
オートエンコーダ: 再構成
- オーディオ忠実度の能力を評価するため、元の録音とオートエンコーダを通した録音を比較。
- オートエンコーダによる再構成は元音源と非常によく似ており、ほぼ透明なレベルである。
GN⁺の見解
- この技術は音楽および効果音生成分野における重要な進歩を示しており、特に高品質なステレオサウンド生成能力が際立っている。
- 最新モデルとの比較を通じて、このモデルの優れた音質を客観的に評価できるため、オーディオコンテンツ制作者にとって有用なツールになると期待される。
- オートエンコーダによる再構成比較は、この技術が元のオーディオを非常に正確に復元できることを示しており、音質に敏感な応用分野での活用可能性を示唆している。
1件のコメント
Hacker Newsのコメント
Ed Newton-Rexは、著作権と学習データに関する懸念から、Stable Audioのリリース直後に退職した。
90年代やInternet Explorerの状況が繰り返されているが、今回は支配的なブラウザがオープンソースである点は前向きだ。
Stable Diffusionと同様に、テキストプロンプトは有用な出力を得るための最も制御しづらい方法になりそうだ。
Stable Audioは、現時点のSOTA音楽モデル(MusicGen、MusicLM)と比べて非常に優れている。
AIが高品質なサウンドライブラリを学習し、MIDIを通じてそのライブラリの音をトリガーする段階が、依然として必要だ。
ドラマーとして言うと、「ドラムソロ」は退屈で奇妙な音が混ざっており、まだ本物のような音響効果ではない。
コードと学習手順は公開されたが、モデルは公開されていない。
「高品質、ステレオ」というプロンプトを追加するのが一般的に役立つと分かったのは面白い。
サウンドエフェクト生成というアイデアは一瞬面白かったが、「足音」はかなりひどい。
「エネルギッシュな音楽、バイオリン、ボーカル、オーケストラ、ピアノ、ミニマリズム、ジョン・アダムズ、Nixon in China」というプロンプトを使って、非常に独特で興味深い音楽を生成できる。