24 ポイント 投稿者 xguru 2025-02-14 | 2件のコメント | WhatsAppで共有
  • 20万時間以上の多言語音声データで学習された Open Weight Text-To-Speech モデル
  • 商用TTSサービスと「同等またはそれ以上の音声品質」および「自然な表現力を提供」
  • 44kHzのサンプリングレートで高音質な音声を出力
  • 音声クローニングをサポート: わずか数秒の参照音声で特定話者のスタイルを高精度に複製可能
  • 多様な調整機能: 話速、ピッチ、音質、感情(喜び、恐れ、悲しみ、怒りなど)を制御可能

主な機能

  • Zero-shot TTS および音声クローニング
    • テキストと10〜30秒の話者サンプルを入力すると、即座に高品質な音声合成が可能
  • オーディオプレフィックス入力をサポート
    • テキストとともにオーディオプレフィックスを追加すると、より精密な話者マッチングが可能
    • ささやき声のような特定の音声スタイルを実現するのに効果的
  • 多言語対応
    • 英語、日本語、中国語、フランス語、ドイツ語をサポート
  • 感情および音声品質の制御
    • 感情調整: 喜び、怒り、悲しみ、恐れなどを表現可能
    • 詳細な音声調整: 速度、ピッチ、最大周波数、音声品質を調整可能
  • 高速性能
    • RTX 4090でリアルタイムの約2倍の速度で実行可能
  • Gradio WebUI をサポート
    • シンプルなWebインターフェースにより、誰でも簡単に音声生成が可能
  • シンプルなインストールとデプロイ
    • Dockerを使って簡単にインストールおよびデプロイが可能

2件のコメント

 
mindok 2025-02-14

韓国語がないのが残念ですね、、、

 
marantz 2025-02-19

韓国語もよく対応しています。少し不自然ではありますが。