13 ポイント 投稿者 GN⁺ 2024-03-30 | 1件のコメント | WhatsAppで共有
  • 参照話者の短いオーディオクリップだけでその声を複製し、複数の言語で音声を生成できる多目的な即時音声複製手法
  • 声のスタイルを細かく調整でき、感情、イントネーション、リズム、ポーズ、抑揚に加えて、参照話者の声色も複製可能
  • 大規模な話者学習セットに含まれていない言語に対しても、ゼロショット(zero-shot)のクロスリンガル音声複製が可能
  • 商用利用可能なAPIより数十倍少ない計算コストで優れた性能を提供
  • 参照した声色を正確に複製し、多様な言語およびアクセントで音声を生成可能
  • 感情やイントネーションだけでなく、リズム、ポーズ、抑揚のような他のスタイルパラメータに対する細かな制御を可能にする

1件のコメント

 
GN⁺ 2024-03-30

Hacker Newsのコメント

  • あるHacker Newsユーザーは自身の体験を共有し、OpenVoiceのGradioデモをローカルで実行する方法を説明している。このユーザーはRTX 3090を使用してXTTS2より高速に音声を生成し、VRAM使用量は約1.5GBだったと述べている。デモはリソース使用を考慮して200文字に制限されているが、実時間の8倍の速度で動作するという。さらに、デモを修正してより長いテキストで試したところ、1分分の音声を約4秒でレンダリングしたという。音声の明瞭さはXTTS2より良いが、ややぎこちなくロボット的な印象があると評価している。

  • 別のユーザーは、音声クローン技術の倫理的なユースケースに疑問を呈している。このユーザーは、ポルノ、身元盗用、なりすまし、声優の代替、声優の声の盗用、カスタマーサポートでボット使用を隠すことなど、否定的なユースケースを挙げている。一方で、声を失った人に本来の声を提供するといった前向きなユースケースもあり得るが、そのような市場は投資を正当化するには十分ではないと主張している。

  • OpenVoiceがHuggingface TTSコンペティションのリーダーボードで下から2番目に位置しているという情報を共有したユーザーがいる。このユーザーは、styletts2やxtts2のような代替手段がOpenVoiceよりはるかに高順位だと言及している。

  • イーロン・マスクの声を模倣することが品質の証拠として使われていることに首をかしげるユーザーがいる。実際、マスクの声自体がぎこちなく途切れがちな傾向があるため、もっと良い声を模倣できるはずだと主張している。

  • Voicecraftがモデルの重みを公開したというニュースを伝えたユーザーがいる。

  • サイトで提供されているクリップと比べて、ローカルでは同程度の品質の音声クローンを実現できなかったと述べるユーザーがいる。何か間違っているのかもしれないと推測している。

  • GitHubでローカル実行が可能であることを確認したユーザーがおり、品質は良いと評価している。

  • 音声をIPAに似た表現でエンコードし、その表現を対象言語にデコードする過程について説明するユーザーがいる。また、「声色」を抽出してIPAに似た表現から取り除き、その後ターゲット層に再び加える工程にも言及している。これにより、自分の声が別の言語で似た声色のまま話すのを聞けるという。ユーザーは、自分が中国語を流暢に習得したらその結果がどれほど似るのか、そして別の言語に声色を翻訳する「声色翻訳機」が必要なのか気になっている。

  • 複数録音から話者を識別して話者分離ができる「逆」のモデルを知っているかと尋ねるユーザーがいる。

  • 音声クローンツールにはどれも「vocal fry」という特徴があり、これは音声の微妙な部分を正確に一致させられない「不気味の谷」のようなものだと評価するユーザーがいる。このユーザーは、こうしたツールがMicrosoft Samのような息っぽさを完全には脱していないと説明している.