VibeVoice - オープンソースの最先端音声AIモデル
(github.com/microsoft)- Microsoftが公開したオープンソース音声AIモデルファミリーで、TTS(テキスト→音声)とASR(音声→テキスト)の両方を含む
- ASRはOpenAI Whisperに似ているが、**話者分離(speaker diarization)**機能がモデル自体に内蔵されている
- 中核的な革新は7.5Hzの超低フレームレート連続音声トークナイザーで、音声品質を維持しながら長いシーケンスの計算効率を大幅に向上
- next-token diffusionフレームワークを採用 - LLMがテキスト文脈を理解し、diffusion headが高品質な音響ディテールを生成
- VibeVoice-ASR (7B): 最大60分の音声を単一パスで処理し、話者(Who)・タイムスタンプ(When)・内容(What)を構造化して出力
- ユーザー向けカスタムホットワード機能により、ドメイン特化用語の認識精度を向上
- 50以上の言語をネイティブにサポートする多言語モデル
- 2026年3月からHugging Face Transformersに統合
- vLLM推論をサポートし、より高速な推論が可能で、ファインチューニングコードも公開
- VibeVoice-TTS (1.5B): 最大90分の対話型音声を単一パスで生成し、一度に最大4話者をサポート
- 感情的なニュアンスと会話のダイナミクスを捉える、表現力が高く自然な音声を生成し、多言語にも対応
- 2025年8月25日に公開されたが、その後意図しない形で利用された事例が確認され、2025年9月5日にTTSコードがリポジトリから削除された
- VibeVoice-Realtime (0.5B): 最大10分、最初の音声出力まで約300ミリ秒で可能なリアルタイムTTS
- 0.5Bパラメータの軽量なリアルタイムテキスト音声変換モデルで、デプロイしやすい
- ストリーミングテキスト入力をサポート
- 2025年12月3日に公開され、その後12月16日に9言語(DE, FR, IT, JP, KR, NL, PL, PT, ES)の多言語音声と11種類の英語スタイル音声が実験的に追加
- **Apple Silicon(MPS)**サポートがGradio ASRデモに追加され、Macでの使い勝手が改善
- ベースモデル(Qwen2.5 1.5B)ベースのため、バイアスや誤りを継承する可能性があり、ディープフェイクへの悪用可能性に注意が必要
- MITライセンス
1件のコメント
VibeVoice - Microsoftの次世代オープンソース音声合成モデル
GeekNewsでは初期にすぐ公開されましたが、問題があって VibeVoice-TTS のコードは削除されたようですね。
TTS は VibeVoice-Realtime だけが利用可能な状態のようです。
ここ数日、VibeVoice-ASR のために再び人気を集めているのをあちこちで見かけます。
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison がテストしたところ、Mac で
uvと mlx-audio を使って1行のコマンドで実行でき、1時間分の音声を 128GB M5 Max MacBook Pro で約 8分45秒 で処理したそうです。
話者分離がうまくできる Whisperと見ればよさそうです