26 ポイント 投稿者 xguru 1 일 전 | 1件のコメント | WhatsAppで共有
  • Microsoftが公開したオープンソース音声AIモデルファミリーで、TTS(テキスト→音声)とASR(音声→テキスト)の両方を含む
  • ASRはOpenAI Whisperに似ているが、**話者分離(speaker diarization)**機能がモデル自体に内蔵されている
  • 中核的な革新は7.5Hzの超低フレームレート連続音声トークナイザーで、音声品質を維持しながら長いシーケンスの計算効率を大幅に向上
  • next-token diffusionフレームワークを採用 - LLMがテキスト文脈を理解し、diffusion headが高品質な音響ディテールを生成
  • VibeVoice-ASR (7B): 最大60分の音声を単一パスで処理し、話者(Who)・タイムスタンプ(When)・内容(What)を構造化して出力
    • ユーザー向けカスタムホットワード機能により、ドメイン特化用語の認識精度を向上
    • 50以上の言語をネイティブにサポートする多言語モデル
    • 2026年3月からHugging Face Transformersに統合
    • vLLM推論をサポートし、より高速な推論が可能で、ファインチューニングコードも公開
  • VibeVoice-TTS (1.5B): 最大90分の対話型音声を単一パスで生成し、一度に最大4話者をサポート
    • 感情的なニュアンスと会話のダイナミクスを捉える、表現力が高く自然な音声を生成し、多言語にも対応
    • 2025年8月25日に公開されたが、その後意図しない形で利用された事例が確認され、2025年9月5日にTTSコードがリポジトリから削除された
  • VibeVoice-Realtime (0.5B): 最大10分、最初の音声出力まで約300ミリ秒で可能なリアルタイムTTS
    • 0.5Bパラメータの軽量なリアルタイムテキスト音声変換モデルで、デプロイしやすい
    • ストリーミングテキスト入力をサポート
    • 2025年12月3日に公開され、その後12月16日に9言語(DE, FR, IT, JP, KR, NL, PL, PT, ES)の多言語音声と11種類の英語スタイル音声が実験的に追加
    • **Apple Silicon(MPS)**サポートがGradio ASRデモに追加され、Macでの使い勝手が改善
  • ベースモデル(Qwen2.5 1.5B)ベースのため、バイアスや誤りを継承する可能性があり、ディープフェイクへの悪用可能性に注意が必要
  • MITライセンス

1件のコメント

 
xguru 1 일 전

VibeVoice - Microsoftの次世代オープンソース音声合成モデル
GeekNewsでは初期にすぐ公開されましたが、問題があって VibeVoice-TTS のコードは削除されたようですね。
TTS は VibeVoice-Realtime だけが利用可能な状態のようです。
ここ数日、VibeVoice-ASR のために再び人気を集めているのをあちこちで見かけます。

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison がテストしたところ、Mac で uvmlx-audio を使って1行のコマンドで実行でき、
1時間分の音声を 128GB M5 Max MacBook Pro で約 8分45秒 で処理したそうです。
話者分離がうまくできる Whisper と見ればよさそうです