12 ポイント 投稿者 xguru 2024-02-10 | まだコメントはありません。 | WhatsAppで共有
  • 10万時間の音声で学習された12億パラメータのTTS(テキスト音声変換)モデル
  • 感情的な話し方のリズムとトーン(英語)
  • ファインチューニングによるボイスクローニングをサポート(インド人話者の場合、約1分の音声データだけで成功)
  • 米国/英国の音声については、30秒のリファレンス音声だけでZero-Shotクローニングが可能
  • 長い音声合成をサポート
  • Apache 2.0ライセンスで制限なく利用可能

まだコメントはありません。

まだコメントはありません。