VibeVoice - オープンソースの最先端音声AIモデル

(github.com/microsoft)

26 ポイント投稿者 xguru 1 일 전 | 1件のコメント | WhatsAppで共有

Microsoftが公開したオープンソース音声AIモデルファミリーで、TTS（テキスト→音声）とASR（音声→テキスト）の両方を含む
ASRはOpenAI Whisperに似ているが、**話者分離（speaker diarization）**機能がモデル自体に内蔵されている
中核的な革新は7.5Hzの超低フレームレート連続音声トークナイザーで、音声品質を維持しながら長いシーケンスの計算効率を大幅に向上
next-token diffusionフレームワークを採用 - LLMがテキスト文脈を理解し、diffusion headが高品質な音響ディテールを生成
VibeVoice-ASR (7B): 最大60分の音声を単一パスで処理し、話者（Who）・タイムスタンプ（When）・内容（What）を構造化して出力
- ユーザー向けカスタムホットワード機能により、ドメイン特化用語の認識精度を向上
- 50以上の言語をネイティブにサポートする多言語モデル
- 2026年3月からHugging Face Transformersに統合
- vLLM推論をサポートし、より高速な推論が可能で、ファインチューニングコードも公開
VibeVoice-TTS (1.5B): 最大90分の対話型音声を単一パスで生成し、一度に最大4話者をサポート
- 感情的なニュアンスと会話のダイナミクスを捉える、表現力が高く自然な音声を生成し、多言語にも対応
- 2025年8月25日に公開されたが、その後意図しない形で利用された事例が確認され、2025年9月5日にTTSコードがリポジトリから削除された
VibeVoice-Realtime (0.5B): 最大10分、最初の音声出力まで約300ミリ秒で可能なリアルタイムTTS
- 0.5Bパラメータの軽量なリアルタイムテキスト音声変換モデルで、デプロイしやすい
- ストリーミングテキスト入力をサポート
- 2025年12月3日に公開され、その後12月16日に9言語（DE, FR, IT, JP, KR, NL, PL, PT, ES）の多言語音声と11種類の英語スタイル音声が実験的に追加
- **Apple Silicon（MPS）**サポートがGradio ASRデモに追加され、Macでの使い勝手が改善
ベースモデル（Qwen2.5 1.5B）ベースのため、バイアスや誤りを継承する可能性があり、ディープフェイクへの悪用可能性に注意が必要
MITライセンス

1件のコメント

xguru 1 일 전

VibeVoice - Microsoftの次世代オープンソース音声合成モデル
GeekNewsでは初期にすぐ公開されましたが、問題があって VibeVoice-TTS のコードは削除されたようですね。
TTS は VibeVoice-Realtime だけが利用可能な状態のようです。
ここ数日、VibeVoice-ASR のために再び人気を集めているのをあちこちで見かけます。

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison がテストしたところ、Mac で uv と mlx-audio を使って1行のコマンドで実行でき、
1時間分の音声を 128GB M5 Max MacBook Pro で約 8分45秒 で処理したそうです。
話者分離がうまくできる Whisper と見ればよさそうです

VibeVoice - オープンソースの最先端音声AIモデル

関連記事

1件のコメント