VALL-E - Microsoftが開発した音声合成のための言語モデル

xguru · 2023-01-10T10:24:40+09:00

TransformerベースのText-to-Speechモデルどんな音声でも3秒あればその音声で合成可能最新のZero-shot TTSよりもはるかに自然で話者に似ており、話者の感情や音響環境も保持従来のパイプラインは phoneme（音素）→ mel-spectrogram → waveform だったが、 VALL-Eは phoneme → discrete code → waveform さまざまな音声合成アプリケーションやGPT-3のようなAIモデルと組み合わせ可能

(valle-demo.github.io)

17 ポイント投稿者 xguru 2023-01-10 | 3件のコメント | WhatsAppで共有

TransformerベースのText-to-Speechモデル
どんな音声でも3秒あればその音声で合成可能
最新のZero-shot TTSよりもはるかに自然で話者に似ており、話者の感情や音響環境も保持
従来のパイプラインは phoneme（音素）→ mel-spectrogram → waveform だったが、
VALL-Eは phoneme → discrete code → waveform
さまざまな音声合成アプリケーションやGPT-3のようなAIモデルと組み合わせ可能

3件のコメント

openmind 2023-01-10

機械学習の発展によって、TTS技術への参入障壁も低くなってきたようですね。オープンソースのリポジトリを探してみると、自分で音声を録音して、自分の声用の自作TTSを作ることもできるようです。

jjpark78 2023-01-10

これで音声波形は、もはや指紋のように個人を特定できなくなったわけですね。 -_-;

どこかで盗聴をするとき、大規模なサーバーで特定の人の音声パターンを使って、その音声パターンの特定キーワードに反応するようにしている、という話を聞いた気もするのですが……

これほどまでに合成できるなら、そんなシステムはもうおじゃんですね……

xguru 2023-01-10

VALL-E - Microsoftが開発した音声合成のための言語モデル

関連記事

3件のコメント