- 20万時間以上の多言語音声データで学習された Open Weight Text-To-Speech モデル
- 商用TTSサービスと「同等またはそれ以上の音声品質」および「自然な表現力を提供」
- 44kHzのサンプリングレートで高音質な音声を出力
- 音声クローニングをサポート: わずか数秒の参照音声で特定話者のスタイルを高精度に複製可能
- 多様な調整機能: 話速、ピッチ、音質、感情(喜び、恐れ、悲しみ、怒りなど)を制御可能
主な機能
- Zero-shot TTS および音声クローニング
- テキストと10〜30秒の話者サンプルを入力すると、即座に高品質な音声合成が可能
- オーディオプレフィックス入力をサポート
- テキストとともにオーディオプレフィックスを追加すると、より精密な話者マッチングが可能
- ささやき声のような特定の音声スタイルを実現するのに効果的
- 多言語対応
- 英語、日本語、中国語、フランス語、ドイツ語をサポート
- 感情および音声品質の制御
- 感情調整: 喜び、怒り、悲しみ、恐れなどを表現可能
- 詳細な音声調整: 速度、ピッチ、最大周波数、音声品質を調整可能
- 高速性能
- RTX 4090でリアルタイムの約2倍の速度で実行可能
- Gradio WebUI をサポート
- シンプルなWebインターフェースにより、誰でも簡単に音声生成が可能
- シンプルなインストールとデプロイ
- Dockerを使って簡単にインストールおよびデプロイが可能
2件のコメント
韓国語がないのが残念ですね、、、
韓国語もよく対応しています。少し不自然ではありますが。