OpenVoice: 即時音声クローン技術

(github.com/myshell-ai)

5 ポイント投稿者 GN⁺ 2024-04-28 | 1件のコメント | WhatsAppで共有

OpenVoiceは、参照音色を複製して複数の言語やアクセントで音声を生成する即時音声クローンプロジェクトであり、V1とV2の機能を公開している
V1は高精度な音色複製、感情・イントネーション・リズム・ポーズ・抑揚変化といった音声スタイル制御、ゼロショットのクロスリンガル音声クローンをサポートする
OpenVoice V2は2024年4月に公開され、V1の機能を含みつつ、異なる学習戦略によってより良い音声品質を提供する
V2は英語、スペイン語、フランス語、中国語、日本語、韓国語をネイティブな多言語としてサポートし、V1とV2はいずれもMIT Licenseで商用・研究用途に無料で利用できる
OpenVoiceは2023年5月からmyshell.aiの即時音声クローン機能で使われており、2023年11月までに世界中のユーザーに数千万回利用された

OpenVoiceが提供する音声クローン機能

OpenVoiceは、即時の音声クローンのためのプロジェクト
関連論文はarXiv論文として公開されている

OpenVoice V1の主な機能

高精度な音色複製
- 参照音色を正確に複製できる
- 複数の言語やアクセントで音声を生成できる
柔軟な音声スタイル制御
- 感情やイントネーションを細かく制御できる
- リズム、ポーズ、抑揚変化といったスタイルパラメータも制御対象
ゼロショットのクロスリンガル音声クローン
- 生成音声の言語と参照音声の言語が、大規模な多話者・多言語学習データセットに含まれていなくてもよい

OpenVoice V2の変更点

OpenVoice V2は2024年4月に公開された
V2はV1のすべての機能を含む
異なる学習戦略を採用し、より良い音声品質を提供する
英語、スペイン語、フランス語、中国語、日本語、韓国語をネイティブにサポートする
2024年4月からV2とV1はいずれもMIT Licenseで公開され、商用利用が無料となっている

実際の利用と公開範囲

OpenVoiceは2023年5月からmyshell.aiの即時音声クローン機能を支えてきた
2023年11月までに音声クローンモデルは世界中のユーザーに数千万回利用された
READMEにはデモVideoが含まれている

使用方法、ライセンス、ベースとなるプロジェクト

詳しい使い方はリポジトリのusage文書で案内されている
一般的な質問と回答はリポジトリのQA文書で扱われている
OpenVoice V1とV2はMIT Licenseであり、商用利用と研究目的での利用はいずれも無料
実装はTTS、VITS、VITS2をベースとしている

1件のコメント

GN⁺ 2024-04-28

Hacker News の意見

ここ数日の間にもこんなことがあった：運動部長が校長を人種差別発言で陥れるため、AIで偽の音声クリップを作ったと警察が発表した
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
- だからこそ、この技術は広く使われ、よく知られるようにすべきだ。人々がもっと警戒し、何でも信じず、出どころを確認するようにしなければならない
  もちろん、大半はそれでもファクトチェックしないだろうが
法律と執行が非常に速く追いつかなければならない時代に入った
偽の歴史的証拠、偽のリーク、偽の支持表明、偽の広告まで可能になる
Facetok のどんなテキスト投稿も確認するのを面倒がっていた人たちなのだから、これからはずっと悪くなりそうだ
- ハイパーノーマライゼーションからハイパーリアルへ向かう流れのように見える
  友人たちには、5〜10年後には目の前で直接起きていることだけがほぼ100%信じられるようになる、と言ってきた
  信頼できる報道機関に検証してもらうことは選べるが、分極化のせいで、世の中の大きな一部は「すでにだまされている」と見なし、すべてを偽物として片付けるだろう
  Sora や新しい音声モデルを見ればいい。数日前にも、高校の運動部コーチが校長の声を複製してひどい発言をさせた件で逮捕され、自分のメールを使ったために捕まった
  ここに、Microsoft の新しい Phi-mini モデルが38億パラメータで GPT-3.5 の性能に近づいているという点を合わせると、さらに恐ろしい。GPT-3.5 は1,750億パラメータで、この技術の最適化はまだせいぜい5年ほどしか経っていない
  Mr Bones の狂った遊具から降りたい
- 信頼は人間存在の依存関係だ。文明だけでなく、ごく小さな共同体、思考・商品・サービスの基本的な交換にも必要になる
  生成AIが信頼を破壊するリスクがどう展開するかは予測できないが、最終的には人間の創造性が勝つと楽観している
- デジタルの音声ファイルは、何かの証拠とは見なしにくい。音声複製がなくても、音声を切り貼りして編集すれば、ほぼ望む通りのものを作れる
  練習すれば他人の話し方をまねるのも難しくなく、アマチュアやプロの俳優がよくやっていることだ
  変わるのは、それが簡単になったという点だけで、むしろそうした「証拠」がどれほど信用しにくいかを皆が理解する助けになるべきだ
- こういうものも大きな問題だが、さらに大きな問題は、スパム電話が10秒ほど自分の声を入手したあと、銀行や家族に自分の声で電話する状況だ
  Android と iOS はリアルタイム音声変換器を標準機能のようにサポートし、ダイヤラーで素早くオフにするボタンと、知人の連絡先ではオフにしておくオプションを提供すべきだ
- AI の犯罪的・悪意ある利用をめぐる誇張は、他のAI活用の誇張と似たものだと見るようになった
  実際に揺さぶりをかける用途は出てくるだろうが、技術が新たに可能にしたことと、もともと可能だったことの差は、人々が言うよりずっと小さい
これは複製というより、声色をコピーすることに近い。文書にもそう書かれているのに、それでも voice cloning と呼んでいる
実際に使ってみたところ、普段の自分の柔らかい Lancashire アクセントではなく、アメリカ風に聞こえ、自分とはまったく違っていた
- https://voiceshopai.github.io を使えば、元のアクセントにもっと近づけられそうだ
  VoiceShopAi は若い声を年老いた声に、男性を女性に、あるいはどの国のアクセントにも変えられる
  音声分野の新項目を追跡している https://github.com/metame-ai/awesome-audio-plaza で見つけた
- 自分の声でも試してみたが、幸いまったく自分の声のようには聞こえなかった
- タイトルや名前はあまり良くない。さらにメタに見ると、最近の HN コメントは原文や技術そのものを見に行くより、Reddit 的なタイトル反応のようにだんだん変わっている気がすることがある
この技術の正当なユースケースは何だろう？他人をだます用途なら百個でも思いつくが、自分の声を複製したり再現したりしたい場面はあまり思い浮かばない
- ポッドキャストを録音したあと、一部の単語だけ直したいとき、録り直しの手間なしに使える
  インディーゲーム開発者が、大規模言語モデルで会話が駆動される、それぞれ固有の声を持つ生き生きしたNPCを作ることもできる
  映画制作中に俳優の同意を得て特定のセリフを調整することもできる
  健康上の問題で徐々に声を失いつつあるが、コミュニケーションを続けたい人にも必要だ
  この技術には確かに正当なユースケースがある。個人的には、不正利用が正当利用を圧倒すると思うが、正当な応用がないと言うのは公平ではない
  悪用を犯罪化して厳しく規制すべきであって、全面禁止するものではない。ソフトウェアや小さなモデルの場合、禁止はかなり難しくもある
- Alexa のようなエージェントが、より良いパーソナライズされた声を使うようになるのは時間の問題だ
  オーディオブックも、1人の朗読者が無理に演じ分ける代わりに、登場人物ごとの声で読める
  風邪をひいているが、咳なしでスピーチしたいときにも可能だ
  音声は低帯域幅の伝送でテキストだけを送り、ローカルの音声モデルで再生できる
  亡くなった愛する人と会話するのに使うこともできる
  笑いやコメディ用途にも使える
- あまり真剣に考えていないようだ。最初に思い浮かんだのは、リアルタイム翻訳に自分の声の複製を使うことだ
  完璧な翻訳が悪意を持って使われないと仮定すれば、常に有用で、まったく邪悪ではない応用だと思う
- 喉頭がまひした友人がいて、コミュニケーションのためによくスマホや小さなノートPCに入力している
  以前の話し声の録音をもとに、少なくともある程度でも「自分の」声を取り戻せるなら、本当に喜ぶだろう
  残念ながら、彼が使っている Android TTS や Windows に差し込める音声モデルを作ってくれるツールは、まだ見たことがない
- Counter-Strike をよくやるが、人々がJoe Biden の声で相手チームを罵るとかなり笑える
この分野を追い続けるには、どこを見るのがよいのだろう？こうしたツールで創作してみたいけれど、自分の声がその用途にはあまり向いていないので関心が大きい
もっと自然にするなら、テキスト音声合成よりも音声-音声変換のほうがよさそう。RVC のようなツールを少し使ってみたが、AI のノイズに埋もれて見逃している優れたワークフローがたくさんありそうだ
特に、興味深いワークフローや、AI で面白いものを作っている人たちについてもっと知りたい
- 間違いなく Twitter。すべてがそこで発表され、議論されている
ここには終末論や大げさなドラマがかなり多い。すでに約1年前から公開で使えた既存の音声クローン AI の手法と比べて、今回の公開がそれほど悪い理由は何だろう？
音声クローンによって、著者自身の声で読まれるオーディオブックが出てくることを本当に期待している
もちろん著者が直接読むほど良くはないだろうが、著者の声には声優には出せない何かがある。声優たちは発音があまりに一般的で大げさなので、個人的にはつながりを感じにくい
- 著者が訓練を受けた朗読者でなくても価値を加えられるのは、本の文がどのように話され、理解されることを意図していたかに、抑揚が正確に合うという点だ
  AI にはそれはできないだろう。どれほど良くなっても、著者の心を読むことはできない。人間の朗読者よりもさらに一般的な結果になるはずだ
- むしろその点が心配だ。本をなぜ著者が読まなければならないのか分からない
  訓練を受けた声優のほうがはるかに上手で、雰囲気に合わせて声を調整することもできる
  自伝ならよいが、その場合はたいていすでに著者本人が読んでいる
- オーディオブックの声優があまりに一般的だと感じるなら、著者の声で訓練したAI 朗読についてはさらに悪い知らせがある
- 自分が読む本を著者に読んでほしいという気持ちはほとんどない。著者は文章を書くのが上手な人であり、オーディオブックは単にページ上の単語を「読む」作業ではない
  Descript のように、ナレーション後に著者が発音を調整するツールなら別だが、著者の声そのものを望んでいるわけではない
  Allyson Johnson の声でモデルを訓練して Honor Harrington の本を朗読させ、スピンオフのうち別の朗読者を使った1〜2冊を再録音することには関心がある。その朗読者はひどかった
  Wheel of Time シリーズで同じ2人の朗読者が出ているのに、本ごとに複数の名前や単語の発音を変えている部分を整理するのにも使えそうだ。特に「Moghedien」が目立つ
  少なくとも3通りに発音している: Mo-gid-e-on、Mo-ga-dean、Mog-a-din
- 各オーディオブックに朗読者の選択肢があるとよい。好きな朗読者もいれば、どうしても聴けない朗読者もいる
  それに、AI を使わなければ音声形式では絶対に出ない本が何千、何万冊もある
関連: https://github.com/topics/voice-clone
- ここにあるものの中で、実際に動くものを知っているか気になる
  これまで試すたびに、対象である自分の声でも元の声でもなく、ただのランダムな新しい声のように聞こえた
Python ノートブックはいくつか見えるが、README にサンプルコードがあったらもっとよかったと思う

OpenVoice: 即時音声クローン技術

OpenVoiceが提供する音声クローン機能

OpenVoice V1の主な機能

高精度な音色複製

柔軟な音声スタイル制御

ゼロショットのクロスリンガル音声クローン

OpenVoice V2の変更点

実際の利用と公開範囲

使用方法、ライセンス、ベースとなるプロジェクト

関連記事

1件のコメント

Hacker News の意見