WhisperSpeech – Whisperを逆構築したオープンソース音声合成システム

(github.com/collabora)

10 ポイント投稿者 GN⁺ 2024-01-19 | 1件のコメント | WhatsAppで共有

WhisperSpeech 概要

WhisperSpeechは、Whisperを逆構築して作られたオープンソースのテキスト読み上げシステム。
このモデルは高性能でありながら簡単にカスタマイズできるよう設計されており、商用利用にも安全に使える。
現在のモデルは英語のLibreLightデータセットをベースに学習されており、次のリリースではさまざまな言語をサポートする予定。

進捗アップデート [2024-01-18]

直近1週間は推論性能の最適化に集中。
torch.compile の統合、kvキャッシュの追加、一部レイヤーの調整により、コンシューマー向け4090でリアルタイムの12倍の速度で動作中。
1つの文の中で複数言語を混在させる機能を追加。
音声クローンを簡単にテストできる方法も追加。

進捗アップデート [2024-01-10]

より高速で高品質な音声を生成する新しいSD S2Aモデルを公開。
参照音声ファイルをベースにした音声クローンの例も追加。

進捗アップデート [2023-12-10]

英語とポーランド語をサポートする新しいモデルを3つ追加。
新しいサンプル音声を提供し、Colabで直接試せる。

ダウンロード

Google Colabのリンクを出発点として使うか、提供されているノートブックをローカルで実行することを推奨。
手動でダウンロードしたい場合やモデルをゼロから学習したい場合は、HuggingFaceでWhisperSpeechの事前学習済みモデルと変換済みデータセットを利用できる。

ロードマップ

より大規模な感情表現を含む音声データセットの収集
感情やイントネーションに応じて生成を制御する方法の探索
さまざまな言語で自由に使える音声を集めるためのコミュニティ活動の創出
最終的な多言語モデルの学習

アーキテクチャ

AudioLM、SPEAR TTS、MusicGenに似た一般的なアーキテクチャを採用。
強力なオープンソースモデルをベースに構築されている: 意味トークン生成と転写にはOpenAIのWhisper、音響モデリングにはMetaのEnCodec、高品質ボコーダーにはCharactr IncのVocosを使用。

謝辞

この取り組みは、Collabora、LAION、Jülich Supercomputing Centreの支援と個人コントリビューターの協力によって実現。

コンサルティング

オープンソースおよびプロプライエタリなAIプロジェクトへの支援を提供可能。

引用

多くの優れたオープンソースプロジェクトと研究論文に依拠。

GN⁺の見解

WhisperSpeechは音声合成分野における革新的なオープンソースプロジェクトであり、多言語対応と商用利用の安全性を備えた強力なテキスト読み上げモデルを提供。
最新技術を活用してリアルタイムを大きく上回る性能を達成し、音声クローンのような高度な機能も手軽に試せるアクセス性を備えている。
このプロジェクトはコミュニティ主導で発展しており、多言語への拡張や感情表現を含む音声生成を目指していることから、音声技術の未来で重要な役割を果たすことが期待される。

1件のコメント

GN⁺ 2024-01-19

Hacker Newsの意見

Whisper多言語ASRモデルプロジェクト
- Whisper多言語ASRモデルは膨大なデータで学習されており、音声の意味内容をよく表すエンコーダ出力を持つ。
- このエンコーダは、SPEAR-TTS/VALL-E などのモデルアーキテクチャにおいて、意味エンコーダのオープンソース代替として使用可能。
- 予測された音響トークンは Vocos ボコーダでアップサンプリング、ノイズ除去、強調が行われる。
- 現在の主なボトルネックは、適切なデータセットを確保し精製するために必要な人手の不足。
WhisperSpeech開発者の意見
- モデル改善のために数か月間懸命に取り組んできたが、まだ改善の余地は大きい。
- Collabora の支援により真のオープンソースプロジェクトとなっており、改善や統合を望む人々に支援を提供したいとしている。
- ビジネス用途で利用したい場合は、エンジニアリング支援を購入できる。
中国語音声合成への関心
- 中国語の音声合成、とりわけ抑揚や感情表現に関する性能に関心がある。
- EmotiVoice はこれまで見た中で最高品質のオープンソースモデルで、CLI ラッパーを作ってフラッシュカード用の音声生成に使っている。
- EmotiVoice を使って GPU で自分の声を複製できるが、まだ試してはいない。
MycroftのMimic 3への言及
- Mycroft の Mimic 3 は最新技術を使ってはいないが、それでも印象的で、Raspberry Pi 上でリアルタイムに音声を生成できるほど小さい。
- 音声によって出来に差はあるが、一部は WhisperSpeech のサンプルと同等の水準。
国際音声記号（IPA）ベースのモデルに関する質問
- IPA ベースのモデル開発や進捗状況についての質問。
- この方法は、別のアクセントに声を変えたり、多言語対応を行ったりするのに有用かもしれない。
- MBROLA 音声のようなモデルでは、ある言語の音素を別の言語の音素にマッピングする形で限定的に実現可能。
- IPA アプローチは、音声品質や音色の変化をより適切に学習できるようにする可能性がある。
Piperを使ったカスタム音声学習に関する観察
- Piper を使ってカスタム音声を学習する動画を見て、データセットに必要なメタデータがソース音声ファイルのテキストに関するものだと知った。
- Collabora の学習方法はこの工程を自動化し、学習のために音声ファイルだけを必要とする。
ポーランド語サンプルの評価
- ポーランド語サンプルは非常に良く、オーディオブックの録音のように聞こえる。
音声の調整可能性に関する質問
- TTS をチャットシステムに適用するにあたり、音声の調整可能性に関心がある。
- 各ユーザーが固有の声を持てるよう、できるだけ多くの異なる声が必要。
ウィンストン・チャーチルの低品質クリップで学習したデモへの疑問
- 低品質の音声クリップで学習したデモについて、「garbage in, garbage out」ではないかという疑問が呈されている。
TTSへの好意的な評価
- これまで聞いた中で最高の TTS で、人間のように声が変調されている。

WhisperSpeech – Whisperを逆構築したオープンソース音声合成システム

WhisperSpeech 概要

進捗アップデート [2024-01-18]

進捗アップデート [2024-01-10]

進捗アップデート [2023-12-10]

ダウンロード

ロードマップ

アーキテクチャ

謝辞

コンサルティング

引用

GN⁺の見解

関連記事

1件のコメント

Hacker Newsの意見