- 音声入力と自然言語のテキストプロンプトを組み合わせて、音声と効果音を生成
- さまざまなユースケースに合わせたカスタムオーディオを簡単に作成可能
- 今年初めに公開した Voicebox を改良し、音声、効果音(犬の鳴き声、車のクラクション、雷鳴などの短く不連続な音)、Soundscape(サウンドスケープ)に対する生成および編集機能を統合し、多様な入力メカニズムを通じて各ユースケースの制御性を最大化
- 自然言語プロンプトを使って、生成したい音や音声の種類を説明可能
- 「流れる川の水音とさえずる鳥の声」のようなプロンプトでサウンドスケープを生成可能
- 「若い女性が高い声で速いスピードで話す」と入力して、望む音声を生成
- オーディオ音声入力とテキストのスタイルプロンプトを組み合わせることで、どのような環境(例: 「大聖堂で」)や感情(例: 「悲しげにゆっくり話す」)にも、その音声の声を合成可能
- 自由形式の音声スタイル変更のために、二重入力(音声プロンプトおよびテキスト説明プロンプト)をサポートする初のモデル
- さまざまな音声スタイルにおいて、スタイル類似性の面で Voicebox より 30% 以上優れた性能を示す
- 音声研究分野で実績のある厳選された研究者および学術機関に Audiobox を公開し、この研究分野の最先端技術の発展と、この取り組みにおける責任ある AI の側面に取り組める多様なパートナーの確保を支援
1件のコメント
Meta、音声向けGenerative AIモデル「Voicebox」を公開