OpenVoice: 多才で即時な音声クローン技術
- OpenVoiceは、参照音声の短いオーディオクリップだけでその音声を複製し、多様な言語で音声を生成できる多才な音声クローン手法である。
- この技術は、音声スタイル制御の柔軟性、参照音声の声色の複製だけでなく、感情、イントネーション、リズム、間、抑揚など、音声スタイルに対する細かな調整が可能である。
- OpenVoiceは、大規模話者訓練データセットに含まれていない言語についても、ゼロショットのクロスリンガル音声クローンを実現している。
技術的な詳細と研究への貢献
- OpenVoiceは、商用利用可能なAPIより数十倍効率的な計算コストを誇り、性能も優れている。
- 研究分野のさらなる発展のため、ソースコードと学習済みモデルを公開で利用可能にしている。
- デモWebサイトで定性的な結果を提供しており、公開前の内部バージョンは2023年5月から10月まで、世界中のユーザーによって数千万回利用された。
GN⁺の見解
- OpenVoiceは、音声クローン技術における重要な進歩を示しており、特に多様な言語とスタイルで音声を生成できる能力は非常に革新的である。
- この技術は、教育、エンターテインメント、パーソナライズされた音声サービスなど、多様な分野で応用される可能性を持っている。
- 公開されたソースコードとモデルは、音声技術研究の加速に貢献すると期待される。
1件のコメント
Hacker Newsのコメント
ユーザーは、このプロジェクトを試しやすくしてくれた作者たちを称賛している。しかし、一般的な音声クローンについては満足のいく結果を得られなかった。Wikipediaの本に関するページの最初の段落を読ませ、続けて次の文を生成させたが、結果はコンピュータが生成したように聞こえた。
demo_part1.ipynbを実行した。ノートブック上ではほぼ即座に動作した。ユーザーは、自分のハードウェア上で音声クローンを行いたいときに使える、優れたオープンソースプロジェクトを推薦してほしいと求めている。オープンソース音声クローンの最新状況が気になっている。
ユーザーは、この技術(または Eleven Labs)を使って、AndroidスマートフォンのTTSにプラグインできる音声モデルを生成できるかを質問している。
ユーザーはこの論文を気に入っている。「私たちが行ったことと、他の人がそれをできるように手助けしたい」という感覚を受けたという。特に「Remark on Novelty」セクションを高く評価している。OpenVoiceの貢献は、モデル構造の下位モジュールを発明したことではなく、声のスタイルと言語制御を音色クローンから切り離す分離フレームワークを提供した点にある。
GitHubリンクとチェックポイント(zipファイル)のリンクが提供されている。ユーザーはAmazonでホストされているzipファイルへの直接リンクにアレルギーがあるので、チェックポイントのリンクを修正して提示している。
提供されたサンプルリンクは印象的だと評価している。
ユーザーは、YouTubeがこの技術の利用を禁止するか、少なくともこうした動画をフィルタリングできる機能を提供してほしいと望んでいる。
ユーザーは、英国の主要銀行の1つに電話した際、その銀行が今でも「私の声が私のパスワードです」というプログラムへの登録を勧めていることを経験した。AIの現在の発展段階では、これは単に不注意に感じられる。
ユーザーは、音声クローンの非道徳的または犯罪的な利用が、正当な利用を大きく上回っていると考えることが、最初であり継続的な思いだとしている。
オープンソース音声クローン分野の現在のリーダーはRVCであり、これと比べてどう違うのかを見てみたいとしている.