MetaVoice-1B - 12億パラメータのText-To-Speechモデル
(github.com/metavoiceio)- 10万時間の音声で学習された12億パラメータのTTS(テキスト音声変換)モデル
- 感情的な話し方のリズムとトーン(英語)
- ファインチューニングによるボイスクローニングをサポート(インド人話者の場合、約1分の音声データだけで成功)
- 米国/英国の音声については、30秒のリファレンス音声だけでZero-Shotクローニングが可能
- 長い音声合成をサポート
- Apache 2.0ライセンスで制限なく利用可能
まだコメントはありません。