5 ポイント 投稿者 GN⁺ 2025-09-04 | 1件のコメント | WhatsAppで共有
  • テキストから長時間の自然なマルチスピーカー対話音声を生成できるよう設計された新しいTTS音声合成モデル
  • 既存システムの限界だったスケーラビリティ、話者の一貫性、自然なターン交代の問題を解決するよう考案
  • 最大90分長の音声最大4人の話者を同時に合成でき、従来の1〜2人が限界だったモデルを超える
  • 中核は7.5Hzの超低フレームレート連続音声トークナイザー(Acoustic / Semantic)を活用し、長いオーディオシーケンスを効率的に処理しながら音質を維持すること
  • Next-Token Diffusion方式を活用して連続データを効率的にモデリングし、そのために従来のEncodec比で80倍高い圧縮率を提供する新しい連続型音声トークナイザーを導入

紹介

  • 近年のTTS技術は単一話者の短い発話を高品質に合成することには成功しているが、長時間・マルチスピーカー対話合成は依然として課題
    • 既存方式は発話を単純に連結するため不自然な遷移が発生
    • 自然なターンテイキングや文脈を踏まえた生成が難しい
  • 目標: ポッドキャストのような長尺・マルチスピーカー対話音声合成を支援
  • VibeVoiceはこれを解決するため、超低フレームレート(7.5Hz)音声トークナイザーLLMベースのDiffusion構造を結合
  • 結果として、最大90分長のマルチスピーカー音声を安定して合成可能
広告

技術的革新

  • 連続音声トークナイザー(7.5Hz):
    • Acoustic + Semanticトークナイザーを並行して使用
    • 長いシーケンス処理の効率性を確保しつつ、オーディオの忠実度を維持
  • Next-token diffusion framework:
    • LLMがテキスト文脈と対話の流れを理解
    • Diffusion headが高解像度の音響ディテールを生成
  • 結果: 従来よりはるかに自然で人間らしい音声合成

性能

  • 最大90分長の音声合成が可能
  • 最大4人の話者をサポート(従来モデルの1〜2人という限界を超える)
  • さまざまな対話状況で表現力があり一貫性のある音声を提供
広告

実験結果

長時間対話合成(Podcast)

  • 1時間分の対話データセットで評価
  • WER(単語誤り率)SIM(話者類似度)、**主観評価(MOS)**を測定
  • VIBEVOICE-7BはRealism 3.71、Richness 3.81、Preference 3.75で最高性能を記録
  • Gemini 2.5 Pro、ElevenLabs v3など最新モデルより優秀

結論と限界

  • VibeVoiceは最大90分、4人話者の自然な対話合成を支援する次世代TTSフレームワーク
  • 既存のオープンソースおよび商用モデルと比べて主観的・客観的品質の両方で優秀
  • 限界点:
    • 英語・中国語以外の言語では予期しない結果となる可能性
    • **非音声オーディオ(背景音、音楽)**は未対応
    • **同時発話(Overlapping Speech)**は未対応
    • ディープフェイク・偽情報への悪用リスクが存在
  • したがって現時点では研究・開発目的専用であり、商用利用は推奨されない

1件のコメント

 
GN⁺ 2025-09-04
Hacker Newsの意見
  • 複数のコメントでこの音声モデルが本当に写実的だと絶賛されているのを見て大いに期待してページを開いたが、実際に聞いてみるとまったく違う印象だった。音質自体は悪くなかったものの、ほとんどの文でイントネーションが不自然で、明らかに機械的な感じがした。数年前のTTSと比べればかなり印象的だが、最近のAI音声と比べるとそれほど感動はない。特にYouTube Shortsでよく聞くAI音声でも、このサイトの大半のサンプルと同じくらい十分に優れていると感じる。唯一印象的だったのは英語と中国語(おそらく標準中国語)のサンプルで、2つの言語をとても自然に切り替えていたことだ。ただ、自分は中国語に詳しくないので発音を正しく評価できなかったし、漢字なのかアルファベットなのかが明確に区別できるため切り替えやすかっただけかもしれない。同じ文字体系を使う2言語だったら、ここまで自然ではなかったのではないかとも思う。最後に、歌のサンプルはかなり聞くに堪えず、なぜこんなサンプルを追加したのかとても気になった
    • 歌とBGMに関する開発チームの説明がやや奇妙に感じられる。論文の締切に合わせるためにBGM除去の方法を見つけられず、そのまま「特徴」だと言い張っているようなニュアンスを強く受けた。実際に差別化要素だと考えて追加したわけではない印象
    • もしこのモデルより優れたTTSモデルがあるなら勧めてほしい。進歩を誇張して語る人もいれば、逆にこき下ろす人も常にいるが、どちらも発展を妨げるものではないと思う。今まで聞いた中ではこれが一番良かったが、自分の知らないもっと良いものがあるのかもしれない
    • このモデルはかなり良いが、無料モデルの中で最高というわけではない。Chatterboxのほうがより写実的で機械っぽさもずっと少なく、イントネーションも自然だ(完璧ではないが)
    • 女性音声は男性音声よりはるかに自然で説得力があると感じた。それに比べると男性音声は、10年前のTTSよりそれほど良いというほどではない
    • このモデルの本当の強みは音声クローニングだ。自分の音声サンプルを voices フォルダに入れると本当によく動く
  • Microsoftの社内でOpen Sourceコーディングエージェントの名前をぜひMicrosoft VibeCodeにしてほしい。あるいは「Lo」にして、Phiと一緒に使えるようにしてもいい。そうすれば「Lo Phi」でvibe codeできる。MicrosoftのPhi 4言語モデル情報
    • Microsoftのマーケティングの歴史を見ると、結局は "Microsoft Copilot Code Generator for VSCode" みたいな直感的な名前になるか、あるいは唐突に "Zunega" みたいな名前になると思う
    • 天才的な発想だ
  • VibeVoice-Largeは、フィンランド語の発音をほとんど訛りなく本当に自然にサポートする最初のローカルTTSだ。昨日実際に触ってみたが、音声クローニングだけでなく感情まで複製する点に特に感心した
  • 技術的にはかなり高品質だが、特に男性音声のほうは、聞いた瞬間にAIが作った音声だという印象がある。自分はオーディオの知識が乏しいので、その理由をうまく表現できない
    • 私もオーディオエンジニアではないが、このAI音声は「のこぎり波(saw-tooth)」のような波形の音に感じる。基本的なモデルや低性能な技術ではサンプリングが足りず、そのせいで一種のオーディオパルス(振動音)が多く、うねるような機械音の感じが残る。より良いモデルほど波形が滑らかに変化する。波形に関する参考資料
    • 自分の感覚では音色がブロック状に切れていて、音を可視化すると波形に尖りがなく、金属の箱のような響きが生じていると説明できそうだ
    • 実際に聞いてみて、どんな感じか理解できた。音声が揺れていたり、mp3を強く圧縮したように聞こえる部分もある
  • 男性音声は女性音声に比べてずっと人工的に感じられ、ほとんどロボットのように聞こえる。公式サンプルの大半が女性音声で始まっているのを見ると、開発チームもこの問題を認識しているようだ
    • 私も同じように感じた。男性音声のほうが明らかに人工的に聞こえる
  • オープンウェイトTTSモデルの最新の人気ランキングや一覧があるのか気になる。実際にはSTT(ASR)のほうにもっと関心があるが、選択肢が少なすぎる状況だ
    • huggingfaceのTTSモデル一覧で見られる。トレンド入りしているモデルは、それだけ使う価値があるということだ。評価基準は非常に主観的なので、最も重要なのは自分で聞いてみることだ。HFでトレンドに上がらないモデルは、それほど良くない可能性が高い
    • 最高クラスと言えるTTSは、VibeVoice、Chatterbox、Dia、Higgs、F5 TTS、Kokoro、Cosy Voice、XTTS-2だ
    • ハンバーガーメニューでleaderboardをクリックするとランキングページが出る TTS-AGI/TTS-Arena-V2
    • 最高だ
  • GPU性能が弱いユーザーにはこのモデルは使いにくい。旧型の1080 GPUではまともに動かせず、CPUで torch.float32 を使うと66秒の音声を生成するのに832秒もかかった。torch.bfloat16 に変えたところ、音声に変なノイズが乗った。GPUが足りない状況で、これまで最も実用的だったTTSモデルはKokoroだった。また、このスレッドで誰かが言及していたように、テキストに別途注釈(annotation)を追加してTTS出力を細かく制御する機能は現在ない。テキストに中間処理を加えて注釈を生成し、それをTTSに入力する方法が、今後モデルがさらに進化できる方向だと思う。そうすればユーザーがより細かく結果をコントロールできる
    • これはさすがに誇張しすぎだと思う。macOSはかなり前から即時で、しかもかなり高品質なTTSをサポートしており、こんな重いモデルは必要なかった。待ち時間もまったくない。この「AI」というブームは本当に行き過ぎだと思う
  • オープンソースと言うなら、なぜ学習データは公開しないのか気になる
    • クロール由来のデータの多くは、著作権、利用規約、プライバシー保護など法的リスクが多いため、営利企業の立場では完全に「オープン」にするのは賢明ではない
  • Spontaneous Emotionのサンプル対話は、開発チームがLLMで感情を捻り出しているような感じのする音声だ。歌のサンプルは省いたほうがよかったかもしれない。モデルはまだ歌にはまったく向いていない
  • 現時点で最高とされるTTSモデルはHiggsAudioとVibeVoiceの2つだ。個人的にはHiggsのほうが速度も音質もVibeより圧倒的に優れていた。表現力まではよく分からないが、見逃さずぜひ試してみてほしい