VibeVoice - オープンソースのフロンティア音声AI
(github.com/microsoft)- TTSとASRをあわせて含む音声AIモデル群で構成され、長文音声生成と長文音声認識の両方を扱う
- 中核アーキテクチャは 7.5 Hzの超低フレーム連続音声トークナイザー と next-token diffusion の組み合わせで、長いシーケンスを処理しながら音声品質と計算効率の両立を狙う
- テキスト文脈と対話フローの理解には LLM を使い、高忠実度の音響ディテール生成には diffusion head を付けた構造
- VibeVoice-ASR は最大60分の音声を単一パスで処理し、話者情報・タイムスタンプ・発話内容をあわせて含む構造化文字起こしを生成する
- ASRモデルは 50以上の言語 をサポートし、ユーザー指定の hotword や文脈情報を受け取ってドメイン特化の認識精度向上を狙える
- ASR側では finetuningコード と vLLM推論サポート が公開されており、Hugging Face Transformers ライブラリからも直接利用できる
- VibeVoice-TTS は最大90分長の音声を単一パスで合成し、1つの対話内で最大4人の話者をサポートする
- TTSは 表現力のある対話型音声 と話者の一貫性を重視し、英語・中国語・その他の言語をサポートする
- リポジトリの告知によると VibeVoice-TTS のコードは削除済み であり、公開後に stated intent と一致しない利用が確認されたため、リポジトリから削除したと明記されている
- VibeVoice-Realtime-0.5B は0.5B規模のリアルタイムTTSモデルで、ストリーミングテキスト入力、約300msの初回可聴遅延、約10分長の長文音声生成をサポートする
- Realtimeモデルには 9言語の多言語実験話者 と 11種類の英語スタイル音声 が追加されており、今後も話者タイプを増やしていく予定とされている
- 配布経路は主に Hugging Faceの重み, Playground, Colab に整理されており、すばやく試せる
- このリポジトリは 研究および開発目的専用 と案内されており、追加のテストや開発なしに商用または実環境で使うことは推奨されない
- モデルはベースモデルである Qwen2.5 1.5b のバイアスや誤り を受け継ぐ可能性があり、ディープフェイク・なりすまし・偽情報拡散のリスクがあるため、合法かつ責任ある利用とAI生成物の開示が推奨される
1件のコメント
Hacker Newsのコメント
これは新しいモデルですらなく、STTとして見ると幻覚が多く、推論も重くて遅く、多言語性能もいまいちです
他の機能は知りませんが、ここでは純粋に speech to text だけについて話しています
ただ、全体としてノイズの多いデータで学習されたような印象があり、メモリもより多く使い、速度も速くありません
以前少しだけ公開されてすぐ取り下げられた7B版の vibevoice-community について話していて、今は chatterbox turbo と、ときどき qwen TTS を使い続けています
Twitterでもこの話ばかりです
数日使ってみましたが、まず1.5Bモデルのドキュメントがなく、0.5B realtime モデルはひどいものでした
テキストを行単位で変換するのに、ランダムに音楽を挿入し、
…のような特殊文字もまともに処理できませんでした正直かなりがっかりです
repo のスターもすぐ外して、そのままスルーします
この種のモデルをオープンソースと呼ぶのはもうやめるべきだと思います
実際にはopen weightでしかなく、学習コードはプロプライエタリで、公開されたこともありません
https://github.com/microsoft/VibeVoice/issues/102
すみません、Stallman
プロジェクトにオープンソースと書かれているとき、実際に自分が何をできるのかのほうが重要です
open source vs open weight の区別は、今では hacker/cracker や GIF の発音論争のようなカテゴリに入ったようです
アクセス権がないだけで、ライセンスそのものは MIT という意味です
それでも Microsoft がここで開放性を誇張しているという点には完全に同意しますし、驚くことでもありません
非公開の学習データも気になりますが、私にとっては制限の多いライセンスのほうがより気になります
このカテゴリではVoxtralのほうがずっと良いと思います
しかもwebGPUで動かせるくらい小さいです
https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU
この repo/product/author については、Kevin Beaumont が興味深い話を投稿しています
https://cyberplace.social/@GossiTheDog/116454846703138243
これって Microsoft が公開した後、すぐセキュリティ/安全性の理由で取り下げたあのプロジェクトではないでしょうか
その後何が変わったのか気になります
元の TTS モデルはこの repo から消えていますが、他の場所ではまだ見つけられます
その代わり、SST/ASR、long form TTS、streaming TTS モデルはより新しいものです
このプロジェクトが、今言ったような複数の領域を一度に扱っているからです
Microsoft のようなところが vibe を AI 製品用語として公式化するのは興味深いです
私が作ったspeech-swiftも、VibeVoice のようにオンデバイス音声処理に焦点を当てています
ただしクラウド依存なしで Apple Silicon の能力を活用し、ASR, TTS, VAD を動かせるようにしました
ASR は 52 言語をサポートし、real-time factor は 0.06 です
https://soniqo.audio/benchmarks
Simon の昨夜の記事は良かったです
https://simonwillison.net/2026/Apr/27/vibevoice/
whisper に近い領域で、それ以外に long-form TTS と streaming TTS のモデルも別にあります
なぜなのか気になります
コンピュータの基本音声としてMicrosoft Samを選びました
Sususususususu
うわ、ついにCopilotではない名前の Microsoft AI 製品が出ましたね