- テキストから長時間の自然なマルチスピーカー対話音声を生成できるよう設計された新しいTTS音声合成モデル
- 既存システムの限界だったスケーラビリティ、話者の一貫性、自然なターン交代の問題を解決するよう考案
- 最大90分長の音声、最大4人の話者を同時に合成でき、従来の1〜2人が限界だったモデルを超える
- 中核は7.5Hzの超低フレームレート連続音声トークナイザー(Acoustic / Semantic)を活用し、長いオーディオシーケンスを効率的に処理しながら音質を維持すること
- Next-Token Diffusion方式を活用して連続データを効率的にモデリングし、そのために従来のEncodec比で80倍高い圧縮率を提供する新しい連続型音声トークナイザーを導入
紹介
- 近年のTTS技術は単一話者の短い発話を高品質に合成することには成功しているが、長時間・マルチスピーカー対話合成は依然として課題
- 既存方式は発話を単純に連結するため不自然な遷移が発生
- 自然なターンテイキングや文脈を踏まえた生成が難しい
- 目標: ポッドキャストのような長尺・マルチスピーカー対話音声合成を支援
- VibeVoiceはこれを解決するため、超低フレームレート(7.5Hz)音声トークナイザーとLLMベースのDiffusion構造を結合
- 結果として、最大90分長のマルチスピーカー音声を安定して合成可能
技術的革新
- 連続音声トークナイザー(7.5Hz):
- Acoustic + Semanticトークナイザーを並行して使用
- 長いシーケンス処理の効率性を確保しつつ、オーディオの忠実度を維持
- Next-token diffusion framework:
- LLMがテキスト文脈と対話の流れを理解
- Diffusion headが高解像度の音響ディテールを生成
- 結果: 従来よりはるかに自然で人間らしい音声合成
性能
- 最大90分長の音声合成が可能
- 最大4人の話者をサポート(従来モデルの1〜2人という限界を超える)
- さまざまな対話状況で表現力があり一貫性のある音声を提供
実験結果
長時間対話合成(Podcast)
- 1時間分の対話データセットで評価
- WER(単語誤り率)、SIM(話者類似度)、**主観評価(MOS)**を測定
- VIBEVOICE-7BはRealism 3.71、Richness 3.81、Preference 3.75で最高性能を記録
- Gemini 2.5 Pro、ElevenLabs v3など最新モデルより優秀
結論と限界
- VibeVoiceは最大90分、4人話者の自然な対話合成を支援する次世代TTSフレームワーク
- 既存のオープンソースおよび商用モデルと比べて主観的・客観的品質の両方で優秀
- 限界点:
- 英語・中国語以外の言語では予期しない結果となる可能性
- **非音声オーディオ(背景音、音楽)**は未対応
- **同時発話(Overlapping Speech)**は未対応
- ディープフェイク・偽情報への悪用リスクが存在
- したがって現時点では研究・開発目的専用であり、商用利用は推奨されない
まだコメントはありません。