Stable Audio 2.0

(stability.ai)

7 ポイント投稿者 GN⁺ 2024-04-06 | 1件のコメント | WhatsAppで共有

Stable Audio 2.0は、AIが生成する高品質なフルトラックを最大3分、44.1kHzステレオで提供する新たな標準を提示
ユーザーがサンプルをアップロードし、自然言語プロンプトを使って変換できるオーディオ・トゥ・オーディオ生成機能を導入
AudioSparxの音楽ライブラリからライセンスされたデータセットのみを使用して学習されており、クリエイターの「オプトアウト」要求を尊重し、公正な報酬を保証
Stable AudioのWebサイトでモデルを試し、無料で創作を始められる

新機能

最大3分の楽曲を生成でき、イントロ、展開、アウトロを含む構造化された作曲とステレオサウンドエフェクトを提供
Audio-To-Audio生成 : オーディオファイルのアップロードに対応し、アイデアを完全に制作されたサンプルへ変換できる。利用規約では著作権のない素材のみのアップロードを求めており、著作権侵害を防ぐために高度なコンテンツ認識を使用
バリエーションとサウンドエフェクト生成 : キーボードのタイピング音から群衆の歓声、都市の通りのざわめきまで、さまざまなサウンドやオーディオエフェクトの生成を強化
スタイル変換 : 生成プロセス内で新たに生成またはアップロードされたオーディオをシームレスに修正し、プロジェクトの特定のスタイルやトーンに合わせて調整

研究

Stable Audio 2.0の潜在拡散モデルアーキテクチャは、構造化されたフルトラック生成を可能にするよう設計されている
このため、システムのすべての構成要素が長時間にわたる性能向上のために調整されている
新しい高圧縮オートエンコーダは、生のオーディオ波形をはるかに短い表現に圧縮
拡散トランスフォーマー（DiT）は従来のU-Netの代わりに使用され、長いシーケンスにわたってデータを操作するのにより適している

保護措置

1.0モデルと同様に、2.0は80万件を超える音楽、サウンドエフェクト、単一楽器のステムファイル、および対応するテキストメタデータを含むAudioSparxのデータで学習
AudioSparxのすべてのアーティストには、Stable Audioモデルの学習から「オプトアウト」できる選択肢がある
著作権者の権利を保護するため、オーディオアップロード時にはAudibleMagicと提携し、そのコンテンツ認識（ACR）技術を用いてリアルタイムのコンテンツ照合により著作権侵害を防止

Stable Radio

Stable Radioは、Stable Audioが生成したトラックのみを特集する24/7ライブストリームで、Stable AudioのYouTubeチャンネルで配信中
Stable AudioのWebサイトでモデルを試し、無料で創作を始められる。

GN⁺の意見

Stable Audio 2.0は、音楽制作者にAIを活用した創作ツールを提供することで、音楽業界に革新をもたらす可能性を持つ。自然言語処理を通じてユーザーの意図を把握し、それを音楽へ変換する機能は創作プロセスを簡素化し、より多くの人が音楽制作に参加できる機会を提供する。
この技術がもたらし得る問題の一つは著作権問題である。企業は著作権侵害を防ぐための対策を講じていると述べているものの、AIが生成したコンテンツの著作権所有に関する法的問題は依然として複雑である。
音楽制作にAIを導入する際に考慮すべき点の一つは、AIが生成した音楽の独創性と芸術性に対する認識である。AIが人間の創造性を模倣または代替できるのか、そしてそれが音楽業界にどのような影響を与えるのかについての議論が必要である。
AI音楽生成ツールを使用することで得られる利点には、創作時間の短縮、多様な音楽スタイルやジャンルの実験、そして制作者が音楽理論や楽器演奏技術に関する深い知識がなくても音楽を作れることがある。
この技術が音楽教育に与え得る前向きな影響を考えると、音楽理論を学ぶ学生が多様な音楽スタイルや構造を探求し、理解する助けになる可能性がある。

1件のコメント

GN⁺ 2024-04-06

Hacker Newsの意見

印象的なAI音楽ではあるが、人間が作った音楽に込められた意図や感情は感じられず、どこか物足りなさを覚える。
AIが生成したオーディオの著作権への言及がなく、出力物の所有権に関する重要な問題がある。
10年前に作ったビートをAIに渡したところ、まるで洗濯機にステレオを入れたような音に聞こえた。より大きなデータセットが必要そうだが、購読は検討中。
Stability AIがライセンス済みのデータセットを使用し、クリエイターへの公正な補償を保証しているのは良いことだ。
技術的には印象的だが、AI生成の音楽は平凡。現代の電子音楽家ならもっと良い作品を作れる。
Stability AIがオープンソースではないのが残念。OpenAIのような道を進まないでほしい。
AIはオーディオサンプルを似たように再構成しようとしているが、実際のドラムやギターの演奏とは異なる。それでも興味深く、今後さらに改善されたバージョンが出ることを期待している。
コーディング中に聴くのにちょうどいいシンセウェーブ音楽に飽きて新しいものを探していたが、AIなら無限に「十分に良い」プレイリストを生成できそうだ。
AIで面白いものを生成するのに失敗した。サイトも使いづらい。
オーディオモデル向けのComfyUIスタイルのインターフェースがあるのか気になる。

Stable Audio 2.0

新機能

研究

保護措置

Stable Radio

GN⁺の意見

関連記事

1件のコメント

Hacker Newsの意見