17 ポイント 投稿者 xguru 2023-01-10 | 3件のコメント | WhatsAppで共有
  • TransformerベースのText-to-Speechモデル
  • どんな音声でも3秒あればその音声で合成可能
  • 最新のZero-shot TTSよりもはるかに自然で話者に似ており、話者の感情や音響環境も保持
  • 従来のパイプラインは phoneme(音素)→ mel-spectrogram → waveform だったが、
    VALL-Eは phoneme → discrete code → waveform
  • さまざまな音声合成アプリケーションやGPT-3のようなAIモデルと組み合わせ可能

3件のコメント

 
openmind 2023-01-10

機械学習の発展によって、TTS技術への参入障壁も低くなってきたようですね。オープンソースのリポジトリを探してみると、自分で音声を録音して、自分の声用の自作TTSを作ることもできるようです。

 
jjpark78 2023-01-10

これで音声波形は、もはや指紋のように個人を特定できなくなったわけですね。 -_-;

どこかで盗聴をするとき、大規模なサーバーで特定の人の音声パターンを使って、その音声パターンの特定キーワードに反応するようにしている、という話を聞いた気もするのですが……

これほどまでに合成できるなら、そんなシステムはもうおじゃんですね……