MetaVoice-1B - 12億パラメータのText-To-Speechモデル

xguru · 2024-02-10T10:16:01+09:00

10万時間の音声で学習された12億パラメータのTTS（テキスト音声変換）モデル感情的な話し方のリズムとトーン（英語）ファインチューニングによるボイスクローニングをサポート（インド人話者の場合、約1分の音声データだけで成功）米国/英国の音声については、30秒のリファレンス音声だけでZero-Shotクローニングが可能長い音声合成をサポート Apache 2.0ライセンスで制限なく利用可能

(github.com/metavoiceio)

12 ポイント投稿者 xguru 2024-02-10 | まだコメントはありません。 | WhatsAppで共有

10万時間の音声で学習された12億パラメータのTTS（テキスト音声変換）モデル
感情的な話し方のリズムとトーン（英語）
ファインチューニングによるボイスクローニングをサポート（インド人話者の場合、約1分の音声データだけで成功）
米国/英国の音声については、30秒のリファレンス音声だけでZero-Shotクローニングが可能
長い音声合成をサポート
Apache 2.0ライセンスで制限なく利用可能

MetaVoice-1B - 12億パラメータのText-To-Speechモデル

関連記事

まだコメントはありません。