VALL-E - Microsoftが開発した音声合成のための言語モデル
(valle-demo.github.io)- TransformerベースのText-to-Speechモデル
- どんな音声でも3秒あればその音声で合成可能
- 最新のZero-shot TTSよりもはるかに自然で話者に似ており、話者の感情や音響環境も保持
- 従来のパイプラインは phoneme(音素)→ mel-spectrogram → waveform だったが、
VALL-Eは phoneme → discrete code → waveform - さまざまな音声合成アプリケーションやGPT-3のようなAIモデルと組み合わせ可能
3件のコメント
機械学習の発展によって、TTS技術への参入障壁も低くなってきたようですね。オープンソースのリポジトリを探してみると、自分で音声を録音して、自分の声用の自作TTSを作ることもできるようです。
これで音声波形は、もはや指紋のように個人を特定できなくなったわけですね。 -_-;
どこかで盗聴をするとき、大規模なサーバーで特定の人の音声パターンを使って、その音声パターンの特定キーワードに反応するようにしている、という話を聞いた気もするのですが……
これほどまでに合成できるなら、そんなシステムはもうおじゃんですね……