Zonos - 高品質なオープンウェイト音声合成モデル

xguru · 2025-02-14T10:23:01+09:00

20万時間以上の多言語音声データで学習された Open Weight Text-To-Speech モデル商用TTSサービスと「同等またはそれ以上の音声品質」および「自然な表現力を提供」 44kHzのサンプリングレートで高音質な音声を出力音声クローニングをサポート: わずか数秒の参照音声で特定話者のスタイルを高精度に複製可能多様な調整機能: 話速、ピッチ、音質、感情（喜び、恐れ、悲しみ、怒りなど）を制御可能主な機能 Zero-shot TTS および音声クローニングテキストと10〜30秒の話者サンプルを入力すると、即座に高品質な音声合成が可能オーディオプレフィックス入力をサポートテキストとともにオーディオプレフィックスを追加すると、より精密な話者マッチングが可能ささやき声のような特定の音声スタイルを実現するのに効果的多言語対応英語、日本語、中国語、フランス語、ドイツ語をサポート感情および音声品質の制御感情調整: 喜び、怒り、悲しみ、恐れなどを表現可能詳細な音声調整: 速度、ピッチ、最大周波数、音声品質を調整可能高速性能 RTX 4090でリアルタイムの約2倍の速度で実行可能 Gradio WebUI をサポートシンプルなWebインターフェースにより、誰でも簡単に音声生成が可能シンプルなインストールとデプロイ Dockerを使って簡単にインストールおよびデプロイが可能

(github.com/Zyphra)

24 ポイント投稿者 xguru 2025-02-14 | 2件のコメント | WhatsAppで共有

20万時間以上の多言語音声データで学習された Open Weight Text-To-Speech モデル
商用TTSサービスと「同等またはそれ以上の音声品質」および「自然な表現力を提供」
44kHzのサンプリングレートで高音質な音声を出力
音声クローニングをサポート: わずか数秒の参照音声で特定話者のスタイルを高精度に複製可能
多様な調整機能: 話速、ピッチ、音質、感情（喜び、恐れ、悲しみ、怒りなど）を制御可能

主な機能

Zero-shot TTS および音声クローニング
- テキストと10〜30秒の話者サンプルを入力すると、即座に高品質な音声合成が可能
オーディオプレフィックス入力をサポート
- テキストとともにオーディオプレフィックスを追加すると、より精密な話者マッチングが可能
- ささやき声のような特定の音声スタイルを実現するのに効果的
多言語対応
- 英語、日本語、中国語、フランス語、ドイツ語をサポート
感情および音声品質の制御
- 感情調整: 喜び、怒り、悲しみ、恐れなどを表現可能
- 詳細な音声調整: 速度、ピッチ、最大周波数、音声品質を調整可能
高速性能
- RTX 4090でリアルタイムの約2倍の速度で実行可能
Gradio WebUI をサポート
- シンプルなWebインターフェースにより、誰でも簡単に音声生成が可能
シンプルなインストールとデプロイ
- Dockerを使って簡単にインストールおよびデプロイが可能

2件のコメント

mindok 2025-02-14

韓国語がないのが残念ですね、、、

marantz 2025-02-19

韓国語もよく対応しています。少し不自然ではありますが。

Zonos - 高品質なオープンウェイト音声合成モデル

主な機能

関連記事

2件のコメント