特定の人物の声を5秒分だけ使って音声をリアルタイム複製するオープンソース
(github.com)Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) 論文の実装。
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) 論文の実装。
2件のコメント
顔の合成と音声合成の技術が発展していくと、究極的には外見や声が持つ意味も変わっていくのではないかと思います。外見のようなもの、物質的なものだけでは、もはや個人を特定できなくなるのでしょう。人間の精神や本質に、よりいっそう焦点が当たる時代が来るように思います。
特定の人物の声を5秒だけ使って音声をリアルタイム複製するオープンソース
YouTubeデモ動画 : https://www.youtube.com/watch?v=-O_hYhToKoA