5 ポイント 投稿者 GN⁺ 2024-04-28 | 1件のコメント | WhatsAppで共有

OpenVoice V1 の紹介

  • OpenVoiceの利点は次のとおり:
    • 正確な声質の複製: OpenVoiceは参照音声の声質を正確に複製し、複数の言語やアクセントで音声を生成できる。
    • 柔軟な話し方スタイル制御: OpenVoiceは感情やイントネーションのような話し方のスタイルに加え、リズム、ポーズ、抑揚などの他のスタイルパラメータも細かく制御できる。
    • Zero-shot多言語音声クローン: 生成される音声の言語と参照音声の言語のいずれも、大規模な話者対応多言語学習データセットに含まれている必要がない。

OpenVoice V2 の紹介

  • 2024年4月にOpenVoice V2が公開され、V1のすべての機能に加えて次の機能が追加された:
    • より優れた音声品質: OpenVoice V2は、より高い音声品質を実現する別の学習戦略を採用している。
    • ネイティブな多言語サポート: 英語、スペイン語、フランス語、中国語、日本語、韓国語がOpenVoice V2で標準サポートされている。
    • 無料の商用利用: 2024年4月からV2とV1はMITライセンスで公開されており、商用利用は無料である。

OpenVoice の利用状況

  • OpenVoiceは2023年5月からmyshell.aiの即時音声クローン機能を提供してきた。
  • 2023年11月までに音声クローンモデルは世界中のユーザーに数千万回利用され、プラットフォーム上で爆発的なユーザー増加が確認された。

主な貢献者

  • Zengyi Qin (MIT, MyShell)
  • Wenliang Zhao (Tsinghua University)
  • Xumin Yu (Tsinghua University)
  • Ethan Sun (MyShell)

使い方

  • 詳しい使い方はusageを参照。

よくある問題

  • 一般的な質問と回答はQAを参照。
  • 質問と回答の一覧は定期的に更新される予定。

コミュニティ参加

  • Discordコミュニティに参加し、参加時に「Developer」ロールを選択すると、開発者専用チャンネルへの限定アクセス権を得られる。
  • 有益な議論やコラボレーションの機会を逃さないこと。

引用

  • この実装はいくつかの優れたプロジェクト、たとえばTTS、VITS、VITS2をベースにしている。
  • 彼らの素晴らしい仕事に感謝する。

ライセンス

  • OpenVoice V1とV2はMITライセンスであり、商用利用と研究利用のいずれも無料である。

GN⁺の意見

  • OpenVoiceは、さまざまな言語や感情を持つ声を簡単に生成できる強力なツールである。これは映画、アニメーション、ゲームなど幅広い分野で活用できそうである。

  • ただし、声をあまりにも簡単に複製できるという点で悪用の余地がある。たとえば、許可なく有名人の声を使ってdeepfake動画を作成するといった問題が発生しうる。この点に対する対策が必要と思われる。

  • OpenVoiceと類似した機能を持つ商用製品としては、Lyrebird、Resemble.ai、Descriptなどがある。これらは主に顧客サポート、コールセンター、動画ダビングなどに活用されている。

  • OpenVoiceを導入する際には、データセキュリティと著作権の問題に注意する必要がある。また、生成された音声の自然さや発音の正確さも必ず確認が必要である。

  • オープンソースとして公開されているだけに、多様な開発者の参加による継続的な性能向上が期待される。商用製品レベルの音質と機能を提供できるかが注目される。

1件のコメント

 
GN⁺ 2024-04-28
Hacker Newsの意見
  • 最近、運動部の監督がAIを使って校長の人種差別的発言を捏造した音声クリップを作成し、陥れた事件が発生した。これは、法と法執行がAI技術の進歩の速度に追いつくよう努める必要があることを示している。
  • 偽の歴史的証拠、偽のリーク、偽の支持、偽の広告などの問題が深刻化すると予想される。単なるテキスト記事ですら適切に確認されていない状況で、AI技術による被害はさらに大きくなるだろう。
  • この技術は声のトーンを模倣しているだけで、実際の声を複製しているわけではない。文書にもその旨が明記されているが、それでもなお「音声クローン」と呼ばれており、混乱を招いている。
  • この技術の正当なユースケースを見つけるのは難しい。他人を欺くために悪用される余地が大きい。
  • AI技術を活用して面白いものを作りたい人にとって、関連情報を得られる良い場所を見つけることが重要だ。AI技術そのものよりも、それを活用する興味深いワークフローや人々のほうに関心がある。
  • 既存の公開済み音声クローンAI技術と比べると、今回のリリースに特別悪い点はなさそうだ。過度に悲観的で大げさな反応が多い。
  • 音声クローン技術によって、作者本人の声でオーディオブックを作れるようになることを期待している。本人が直接読むほど良くはないだろうが、声優よりは作者の声のほうが魅力的だろう。
  • READMEにサンプルコードが含まれているとよい。
  • 実際に自分の声を「クローン」してみたが、出来上がったものはまったく似ていなかった。フランス語で話す自分の声を聞けると思っていたが、そうではなかった。「即時音声クローン」というタイトルはやや誤解を招く。