Stable Audio 2.0
(stability.ai)- Stable Audio 2.0は、AIが生成する高品質なフルトラックを最大3分、44.1kHzステレオで提供する新たな標準を提示
- ユーザーがサンプルをアップロードし、自然言語プロンプトを使って変換できるオーディオ・トゥ・オーディオ生成機能を導入
- AudioSparxの音楽ライブラリからライセンスされたデータセットのみを使用して学習されており、クリエイターの「オプトアウト」要求を尊重し、公正な報酬を保証
- Stable AudioのWebサイトでモデルを試し、無料で創作を始められる
新機能
- 最大3分の楽曲を生成でき、イントロ、展開、アウトロを含む構造化された作曲とステレオサウンドエフェクトを提供
- Audio-To-Audio生成 : オーディオファイルのアップロードに対応し、アイデアを完全に制作されたサンプルへ変換できる。利用規約では著作権のない素材のみのアップロードを求めており、著作権侵害を防ぐために高度なコンテンツ認識を使用
- バリエーションとサウンドエフェクト生成 : キーボードのタイピング音から群衆の歓声、都市の通りのざわめきまで、さまざまなサウンドやオーディオエフェクトの生成を強化
- スタイル変換 : 生成プロセス内で新たに生成またはアップロードされたオーディオをシームレスに修正し、プロジェクトの特定のスタイルやトーンに合わせて調整
研究
- Stable Audio 2.0の潜在拡散モデルアーキテクチャは、構造化されたフルトラック生成を可能にするよう設計されている
- このため、システムのすべての構成要素が長時間にわたる性能向上のために調整されている
- 新しい高圧縮オートエンコーダは、生のオーディオ波形をはるかに短い表現に圧縮
- 拡散トランスフォーマー(DiT)は従来のU-Netの代わりに使用され、長いシーケンスにわたってデータを操作するのにより適している
保護措置
- 1.0モデルと同様に、2.0は80万件を超える音楽、サウンドエフェクト、単一楽器のステムファイル、および対応するテキストメタデータを含むAudioSparxのデータで学習
- AudioSparxのすべてのアーティストには、Stable Audioモデルの学習から「オプトアウト」できる選択肢がある
- 著作権者の権利を保護するため、オーディオアップロード時にはAudibleMagicと提携し、そのコンテンツ認識(ACR)技術を用いてリアルタイムのコンテンツ照合により著作権侵害を防止
Stable Radio
-
Stable Radioは、Stable Audioが生成したトラックのみを特集する24/7ライブストリームで、Stable AudioのYouTubeチャンネルで配信中
-
Stable AudioのWebサイトでモデルを試し、無料で創作を始められる。
GN⁺の意見
- Stable Audio 2.0は、音楽制作者にAIを活用した創作ツールを提供することで、音楽業界に革新をもたらす可能性を持つ。自然言語処理を通じてユーザーの意図を把握し、それを音楽へ変換する機能は創作プロセスを簡素化し、より多くの人が音楽制作に参加できる機会を提供する。
- この技術がもたらし得る問題の一つは著作権問題である。企業は著作権侵害を防ぐための対策を講じていると述べているものの、AIが生成したコンテンツの著作権所有に関する法的問題は依然として複雑である。
- 音楽制作にAIを導入する際に考慮すべき点の一つは、AIが生成した音楽の独創性と芸術性に対する認識である。AIが人間の創造性を模倣または代替できるのか、そしてそれが音楽業界にどのような影響を与えるのかについての議論が必要である。
- AI音楽生成ツールを使用することで得られる利点には、創作時間の短縮、多様な音楽スタイルやジャンルの実験、そして制作者が音楽理論や楽器演奏技術に関する深い知識がなくても音楽を作れることがある。
- この技術が音楽教育に与え得る前向きな影響を考えると、音楽理論を学ぶ学生が多様な音楽スタイルや構造を探求し、理解する助けになる可能性がある。
1件のコメント
Hacker Newsの意見