3 ポイント 投稿者 GN⁺ 2023-11-20 | 1件のコメント | WhatsAppで共有

人間レベルのテキスト・トゥ・スピーチモデル、StyleTTS 2

  • StyleTTS 2は、スタイル拡散と大規模音声言語モデルを用いた敵対的学習により、人間レベルのテキスト・トゥ・スピーチ(TTS)合成を実現する。
  • このモデルは、参照音声なしでテキストに最も適したスタイルを生成するため、拡散モデルを通じてスタイルを潜在ランダム変数としてモデリングし、効率的な潜在拡散を実現する。
  • 大規模な事前学習済み音声言語モデルを識別器として使用し、新しい微分可能な継続時間モデリングによってエンドツーエンド学習を行い、音声の自然さを向上させる。

準備事項

  • Python 3.7以上が必要。
  • StyleTTS 2リポジトリをクローンし、必要なPython要件をインストールする。
  • LJSpeechデータセットをダウンロードし、24 kHzにアップサンプリングしてデータフォルダに展開する。
  • LibriTTSデータセットを使用する場合は、train-clean-360とtrain-clean-100を結合し、フォルダ名をtrain-clean-460に変更する必要がある。

学習

  • 第1段階の学習と第2段階の学習を順番に実行でき、モデルは特定の形式で保存される。
  • データ一覧の形式は filename.wav|transcription|speaker である必要があり、マルチスピーカーモデルではスタイル拡散モデル学習のために参照音声のサンプリングが必要。

重要な設定

  • config.yml ファイルには、SLM敵対的学習のためのOOD(out-of-distribution)テキストパス、学習用の最小・最大長、マルチスピーカーモデルを学習するかどうか、OOM(out-of-memory)問題を防ぐためのバッチ割合など、重要な設定が含まれる。

事前学習済みモジュール

  • ASRフォルダには事前学習済みテキストアライナー、JDCフォルダには事前学習済みピッチ抽出器、PLBERTフォルダには事前学習済みPL-BERTモデルが含まれている。

一般的な問題

  • 損失がNaNになる問題やメモリ不足の問題に対する解決策として、バッチサイズの調整や max_len 値を下げる方法が示されている。

ファインチューニング

  • train_second.py スクリプトを修正し、DPを使用するファインチューニングスクリプトが提供されているが、DDPは現在動作しない。

推論

  • LJSpeechおよびLibriTTSデータセット向けの推論用ノートブックファイルを参照し、LibriTTSでは参照音声ファイルが必要。
  • 事前学習済みのStyleTTS 2モデルをダウンロードできるが、使用前に合成音声サンプルがStyleTTS 2モデルによって生成されたことを聞き手に知らせるか、使用許可を得た声を使う必要がある。

GN⁺の意見

この記事で最も重要なのは、StyleTTS 2が人間レベルのTTS合成を実現した点であり、これはスタイル拡散と大規模音声言語モデルを用いた敵対的学習の可能性を示している。この技術は音声合成の自然さを大きく向上させ、参照音声なしでも多様なスタイルを生成できる能力を提供することで、音声ベースのインターフェースやデジタルアシスタントの発展に大きな影響を与える可能性がある。

1件のコメント

 
GN⁺ 2023-11-20
Hacker Newsの意見
  • StyleTTS2を使った100%ローカル音声チャットボットの開発経験

    • StyleTTS2とWhisper、OpenHermes2-Mistral-7Bなどのオープンソースを活用して作ったチャットボットは、ChatGPTよりはるかに速い応答速度を誇る。
    • 既存の音声アシスタントと違って自然な会話が可能で、特に12GB Nvidia GPUを搭載したWindowsゲーミングPCでは、ワンクリックでインストールして会話できる。
    • デモはやや不安定だが(ヘッドホンが必要、コンソールアプリとして実行するなど)、オープンソースの組み合わせでゲーミングPC上で動作する未来の可能性を垣間見ることができる。
  • StyleTTS2の音声品質に関する個人的な意見

    • 音声は非常に良いが、使う前に自分の好みの快適な声へクローンしたい。
  • StyleTTS2のインストールと使用経験の共有

    • StyleTTS2をテストした経験と、ローカル環境の設定に役立つかもしれない手順メモを共有。
    • LJSpeechモデルとの速度・品質比較では、StyleTTS2は非常に高速で品質も良い。
  • StyleTTS2のインストールおよび動作に関する経験

    • ドキュメントがやや不十分でインストールは少し厄介だったが、約20分後にはWSL Ubuntu 22.04で問題なく動作した。
    • 音質は非常に良く、特に4090 GPUを使うと非常に高速。
    • Eleven Labsの品質には及ばないが、Elevenの強みは高品質で多様な音声ライブラリと、わずか5分のサンプルで驚くほどうまく動く即時音声クローニング機能にある。
    • こうした機能が完全なオープンソースプロジェクトで利用可能になることを期待している。
  • StyleTTS2の音声サンプルと実際の音声の比較

    • TTS2の音声サンプルのほうが実際の音声より自然に聞こえる。
    • オーディオブックのないePubファイル、特に日本のライトノベルなどにこの技術を使えることに興奮している。
  • StyleTTS2の音質に対する評価

    • 音質は非常に優れており、2000年代初頭には想像もできなかったレベルだ。
    • LLMがキャラクターを担当し、TTSがNPCに声を与えるゲームに興味深い展望がある。
  • StyleTTS2のタイトルと内容に関する意見

    • 現在のHacker Newsのタイトルは「StyleTTS2 – オープンソースのEleven Labs品質のText-to-Speech」だが、実際のタイトルやarXiv論文にはEleven Labsへの言及がない。
    • こうした編集的な表現に懸念を示している。
  • StyleTTS2の推論時間に関する質問

    • 現代的なCPUでの推論時間のおおよその見積もりについての質問。
  • StyleTTS2のライセンスに関する質問

    • ライセンスがMITではないため、商用利用できないのかという質問。
  • Text-to-Speechモデルに対するマーケットプレイスの展望

    • CivitaiスタイルのLoRAマーケットプレイスがText-to-Speechモデルにも登場するのか気になっている。