OpenVoice: 即時音声クローン技術
(github.com/myshell-ai)- OpenVoiceは、参照音色を複製して複数の言語やアクセントで音声を生成する即時音声クローンプロジェクトであり、V1とV2の機能を公開している
- V1は高精度な音色複製、感情・イントネーション・リズム・ポーズ・抑揚変化といった音声スタイル制御、ゼロショットのクロスリンガル音声クローンをサポートする
- OpenVoice V2は2024年4月に公開され、V1の機能を含みつつ、異なる学習戦略によってより良い音声品質を提供する
- V2は英語、スペイン語、フランス語、中国語、日本語、韓国語をネイティブな多言語としてサポートし、V1とV2はいずれもMIT Licenseで商用・研究用途に無料で利用できる
- OpenVoiceは2023年5月からmyshell.aiの即時音声クローン機能で使われており、2023年11月までに世界中のユーザーに数千万回利用された
OpenVoiceが提供する音声クローン機能
OpenVoice V1の主な機能
-
高精度な音色複製
- 参照音色を正確に複製できる
- 複数の言語やアクセントで音声を生成できる
-
柔軟な音声スタイル制御
- 感情やイントネーションを細かく制御できる
- リズム、ポーズ、抑揚変化といったスタイルパラメータも制御対象
-
ゼロショットのクロスリンガル音声クローン
- 生成音声の言語と参照音声の言語が、大規模な多話者・多言語学習データセットに含まれていなくてもよい
OpenVoice V2の変更点
- OpenVoice V2は2024年4月に公開された
- V2はV1のすべての機能を含む
- 異なる学習戦略を採用し、より良い音声品質を提供する
- 英語、スペイン語、フランス語、中国語、日本語、韓国語をネイティブにサポートする
- 2024年4月からV2とV1はいずれもMIT Licenseで公開され、商用利用が無料となっている
実際の利用と公開範囲
- OpenVoiceは2023年5月からmyshell.aiの即時音声クローン機能を支えてきた
- 2023年11月までに音声クローンモデルは世界中のユーザーに数千万回利用された
- READMEにはデモVideoが含まれている
1件のコメント
Hacker News の意見
ここ数日の間にもこんなことがあった:運動部長が校長を人種差別発言で陥れるため、AIで偽の音声クリップを作ったと警察が発表した
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
もちろん、大半はそれでもファクトチェックしないだろうが
法律と執行が非常に速く追いつかなければならない時代に入った
偽の歴史的証拠、偽のリーク、偽の支持表明、偽の広告まで可能になる
Facetok のどんなテキスト投稿も確認するのを面倒がっていた人たちなのだから、これからはずっと悪くなりそうだ
友人たちには、5〜10年後には目の前で直接起きていることだけがほぼ100%信じられるようになる、と言ってきた
信頼できる報道機関に検証してもらうことは選べるが、分極化のせいで、世の中の大きな一部は「すでにだまされている」と見なし、すべてを偽物として片付けるだろう
Sora や新しい音声モデルを見ればいい。数日前にも、高校の運動部コーチが校長の声を複製してひどい発言をさせた件で逮捕され、自分のメールを使ったために捕まった
ここに、Microsoft の新しい Phi-mini モデルが38億パラメータで GPT-3.5 の性能に近づいているという点を合わせると、さらに恐ろしい。GPT-3.5 は1,750億パラメータで、この技術の最適化はまだせいぜい5年ほどしか経っていない
Mr Bones の狂った遊具から降りたい
生成AIが信頼を破壊するリスクがどう展開するかは予測できないが、最終的には人間の創造性が勝つと楽観している
練習すれば他人の話し方をまねるのも難しくなく、アマチュアやプロの俳優がよくやっていることだ
変わるのは、それが簡単になったという点だけで、むしろそうした「証拠」がどれほど信用しにくいかを皆が理解する助けになるべきだ
Android と iOS はリアルタイム音声変換器を標準機能のようにサポートし、ダイヤラーで素早くオフにするボタンと、知人の連絡先ではオフにしておくオプションを提供すべきだ
実際に揺さぶりをかける用途は出てくるだろうが、技術が新たに可能にしたことと、もともと可能だったことの差は、人々が言うよりずっと小さい
これは複製というより、声色をコピーすることに近い。文書にもそう書かれているのに、それでも voice cloning と呼んでいる
実際に使ってみたところ、普段の自分の柔らかい Lancashire アクセントではなく、アメリカ風に聞こえ、自分とはまったく違っていた
VoiceShopAi は若い声を年老いた声に、男性を女性に、あるいはどの国のアクセントにも変えられる
音声分野の新項目を追跡している https://github.com/metame-ai/awesome-audio-plaza で見つけた
この技術の正当なユースケースは何だろう? 他人をだます用途なら百個でも思いつくが、自分の声を複製したり再現したりしたい場面はあまり思い浮かばない
インディーゲーム開発者が、大規模言語モデルで会話が駆動される、それぞれ固有の声を持つ生き生きしたNPCを作ることもできる
映画制作中に俳優の同意を得て特定のセリフを調整することもできる
健康上の問題で徐々に声を失いつつあるが、コミュニケーションを続けたい人にも必要だ
この技術には確かに正当なユースケースがある。個人的には、不正利用が正当利用を圧倒すると思うが、正当な応用がないと言うのは公平ではない
悪用を犯罪化して厳しく規制すべきであって、全面禁止するものではない。ソフトウェアや小さなモデルの場合、禁止はかなり難しくもある
オーディオブックも、1人の朗読者が無理に演じ分ける代わりに、登場人物ごとの声で読める
風邪をひいているが、咳なしでスピーチしたいときにも可能だ
音声は低帯域幅の伝送でテキストだけを送り、ローカルの音声モデルで再生できる
亡くなった愛する人と会話するのに使うこともできる
笑いやコメディ用途にも使える
完璧な翻訳が悪意を持って使われないと仮定すれば、常に有用で、まったく邪悪ではない応用だと思う
以前の話し声の録音をもとに、少なくともある程度でも「自分の」声を取り戻せるなら、本当に喜ぶだろう
残念ながら、彼が使っている Android TTS や Windows に差し込める音声モデルを作ってくれるツールは、まだ見たことがない
この分野を追い続けるには、どこを見るのがよいのだろう? こうしたツールで創作してみたいけれど、自分の声がその用途にはあまり向いていないので関心が大きい
もっと自然にするなら、テキスト音声合成よりも音声-音声変換のほうがよさそう。RVC のようなツールを少し使ってみたが、AI のノイズに埋もれて見逃している優れたワークフローがたくさんありそうだ
特に、興味深いワークフローや、AI で面白いものを作っている人たちについてもっと知りたい
ここには終末論や大げさなドラマがかなり多い。すでに約1年前から公開で使えた既存の音声クローン AI の手法と比べて、今回の公開がそれほど悪い理由は何だろう?
音声クローンによって、著者自身の声で読まれるオーディオブックが出てくることを本当に期待している
もちろん著者が直接読むほど良くはないだろうが、著者の声には声優には出せない何かがある。声優たちは発音があまりに一般的で大げさなので、個人的にはつながりを感じにくい
AI にはそれはできないだろう。どれほど良くなっても、著者の心を読むことはできない。人間の朗読者よりもさらに一般的な結果になるはずだ
訓練を受けた声優のほうがはるかに上手で、雰囲気に合わせて声を調整することもできる
自伝ならよいが、その場合はたいていすでに著者本人が読んでいる
Descript のように、ナレーション後に著者が発音を調整するツールなら別だが、著者の声そのものを望んでいるわけではない
Allyson Johnson の声でモデルを訓練して Honor Harrington の本を朗読させ、スピンオフのうち別の朗読者を使った1〜2冊を再録音することには関心がある。その朗読者はひどかった
Wheel of Time シリーズで同じ2人の朗読者が出ているのに、本ごとに複数の名前や単語の発音を変えている部分を整理するのにも使えそうだ。特に「Moghedien」が目立つ
少なくとも3通りに発音している: Mo-gid-e-on、Mo-ga-dean、Mog-a-din
それに、AI を使わなければ音声形式では絶対に出ない本が何千、何万冊もある
関連: https://github.com/topics/voice-clone
これまで試すたびに、対象である自分の声でも元の声でもなく、ただのランダムな新しい声のように聞こえた
Python ノートブックはいくつか見えるが、README にサンプルコードがあったらもっとよかったと思う