WhisperSpeech 概要
- WhisperSpeechは、Whisperを逆構築して作られたオープンソースのテキスト読み上げシステム。
- このモデルは高性能でありながら簡単にカスタマイズできるよう設計されており、商用利用にも安全に使える。
- 現在のモデルは英語のLibreLightデータセットをベースに学習されており、次のリリースではさまざまな言語をサポートする予定。
進捗アップデート [2024-01-18]
- 直近1週間は推論性能の最適化に集中。
torch.compile の統合、kvキャッシュの追加、一部レイヤーの調整により、コンシューマー向け4090でリアルタイムの12倍の速度で動作中。
- 1つの文の中で複数言語を混在させる機能を追加。
- 音声クローンを簡単にテストできる方法も追加。
進捗アップデート [2024-01-10]
- より高速で高品質な音声を生成する新しいSD S2Aモデルを公開。
- 参照音声ファイルをベースにした音声クローンの例も追加。
進捗アップデート [2023-12-10]
- 英語とポーランド語をサポートする新しいモデルを3つ追加。
- 新しいサンプル音声を提供し、Colabで直接試せる。
ダウンロード
- Google Colabのリンクを出発点として使うか、提供されているノートブックをローカルで実行することを推奨。
- 手動でダウンロードしたい場合やモデルをゼロから学習したい場合は、HuggingFaceでWhisperSpeechの事前学習済みモデルと変換済みデータセットを利用できる。
ロードマップ
- より大規模な感情表現を含む音声データセットの収集
- 感情やイントネーションに応じて生成を制御する方法の探索
- さまざまな言語で自由に使える音声を集めるためのコミュニティ活動の創出
- 最終的な多言語モデルの学習
アーキテクチャ
- AudioLM、SPEAR TTS、MusicGenに似た一般的なアーキテクチャを採用。
- 強力なオープンソースモデルをベースに構築されている: 意味トークン生成と転写にはOpenAIのWhisper、音響モデリングにはMetaのEnCodec、高品質ボコーダーにはCharactr IncのVocosを使用。
謝辞
- この取り組みは、Collabora、LAION、Jülich Supercomputing Centreの支援と個人コントリビューターの協力によって実現。
コンサルティング
- オープンソースおよびプロプライエタリなAIプロジェクトへの支援を提供可能。
引用
- 多くの優れたオープンソースプロジェクトと研究論文に依拠。
GN⁺の見解
- WhisperSpeechは音声合成分野における革新的なオープンソースプロジェクトであり、多言語対応と商用利用の安全性を備えた強力なテキスト読み上げモデルを提供。
- 最新技術を活用してリアルタイムを大きく上回る性能を達成し、音声クローンのような高度な機能も手軽に試せるアクセス性を備えている。
- このプロジェクトはコミュニティ主導で発展しており、多言語への拡張や感情表現を含む音声生成を目指していることから、音声技術の未来で重要な役割を果たすことが期待される。
1件のコメント
Hacker Newsの意見
Whisper多言語ASRモデルプロジェクト
WhisperSpeech開発者の意見
中国語音声合成への関心
MycroftのMimic 3への言及
国際音声記号(IPA)ベースのモデルに関する質問
Piperを使ったカスタム音声学習に関する観察
ポーランド語サンプルの評価
音声の調整可能性に関する質問
ウィンストン・チャーチルの低品質クリップで学習したデモへの疑問
TTSへの好意的な評価