Nvidia、柔軟なAIサウンド生成モデル Fugatto を公開
(blogs.nvidia.com)- テキストを使って音声出力を制御できるサウンド生成AIモデル「Fugatto」
- 音楽生成、声のイントネーションや感情の変更、既存の音楽への楽器の追加・削除など、さまざまな作業が可能
- これまで聞いたことのない、まったく新しい音も生成可能
- Fugatto は、音楽、音声、環境音をテキストまたはオーディオファイルとして入力し、生成または変換できる
- 人間のように音を理解し生成するよう設計されている
-
「教師なし(Unsupervised)マルチタスク学習が可能で、データとモデルのスケールにおいて新たな潜在力を発揮する」
多様なユースケース
- 音楽制作: 曲のスタイル、音声、楽器を即座に試し、修正できる
- 広告: 地域別・状況別に音声をカスタマイズしてキャンペーンを最適化
- 言語学習: ユーザーが選んだ音声でパーソナライズされた学習コンテンツを提供
- ゲーム開発: ゲームの状況に応じてオーディオアセットを変形したり新たに生成したりできる
- 新しい音作り: 画像生成AIの「アボカドの椅子」のように
- 例えば、トランペットが子犬のように吠える(bark)音や、サックスが猫のように鳴く(meow)音を生成可能
- 微調整と少量の歌唱データを通じて、テキストプロンプトから高品質な歌声を生成するなど、事前学習されていないタスクにも対応できる
ユーザーに Artistic Control(芸術的なコントロール)を提供
- ユーザー指向の制御機能
- ComposableART 技術により複数の指示を組み合わせ可能
- テキスト指示の細かな調整が可能: 例えば、フランス語アクセントに悲しい感情を組み合わせる
- 時間的補間によって音の変化を制御: 例、雷が徐々に消えていく雨の風景を生成
- ユーザーに前例のない音の創作の自由を提供
技術的特徴
- NVIDIA DGX システムと H100 GPU を使用し、2億5,000万のパラメータで学習した生成AIモデル
- 多国籍研究チームの協力により、多言語およびアクセント対応を強化
- 数百万件のオーディオサンプルで学習データセットを構築
- データ間の関係を新たに分析して性能を向上
- 学習データの確保とモデルの拡張に1年以上を要した
- 最初のテキストプロンプトで音楽生成に成功したときは非常に驚き、電子音楽と犬の鳴き声を組み合わせたデモでは大きな笑いを誘い、今後の可能性を確認した
まだコメントはありません。