1 ポイント 投稿者 GN⁺ 11 시간 전 | 1件のコメント | WhatsAppで共有
  • TTSとASRをあわせて含む音声AIモデル群で構成され、長文音声生成と長文音声認識の両方を扱う
  • 中核アーキテクチャは 7.5 Hzの超低フレーム連続音声トークナイザーnext-token diffusion の組み合わせで、長いシーケンスを処理しながら音声品質と計算効率の両立を狙う
  • テキスト文脈と対話フローの理解には LLM を使い、高忠実度の音響ディテール生成には diffusion head を付けた構造
  • VibeVoice-ASR は最大60分の音声を単一パスで処理し、話者情報・タイムスタンプ・発話内容をあわせて含む構造化文字起こしを生成する
  • ASRモデルは 50以上の言語 をサポートし、ユーザー指定の hotword や文脈情報を受け取ってドメイン特化の認識精度向上を狙える
  • ASR側では finetuningコードvLLM推論サポート が公開されており、Hugging Face Transformers ライブラリからも直接利用できる
  • VibeVoice-TTS は最大90分長の音声を単一パスで合成し、1つの対話内で最大4人の話者をサポートする
  • TTSは 表現力のある対話型音声 と話者の一貫性を重視し、英語・中国語・その他の言語をサポートする
  • リポジトリの告知によると VibeVoice-TTS のコードは削除済み であり、公開後に stated intent と一致しない利用が確認されたため、リポジトリから削除したと明記されている
  • VibeVoice-Realtime-0.5B は0.5B規模のリアルタイムTTSモデルで、ストリーミングテキスト入力、約300msの初回可聴遅延、約10分長の長文音声生成をサポートする
  • Realtimeモデルには 9言語の多言語実験話者11種類の英語スタイル音声 が追加されており、今後も話者タイプを増やしていく予定とされている
  • 配布経路は主に Hugging Faceの重み, Playground, Colab に整理されており、すばやく試せる
  • このリポジトリは 研究および開発目的専用 と案内されており、追加のテストや開発なしに商用または実環境で使うことは推奨されない
  • モデルはベースモデルである Qwen2.5 1.5b のバイアスや誤り を受け継ぐ可能性があり、ディープフェイク・なりすまし・偽情報拡散のリスクがあるため、合法かつ責任ある利用とAI生成物の開示が推奨される

1件のコメント

 
Hacker Newsのコメント
  • これは新しいモデルですらなく、STTとして見ると幻覚が多く、推論も重くて遅く、多言語性能もいまいちです
    他の機能は知りませんが、ここでは純粋に speech to text だけについて話しています

    • まったく長所がないわけではなく、いくつかのケースでは表現力が少し良いこともあります
      ただ、全体としてノイズの多いデータで学習されたような印象があり、メモリもより多く使い、速度も速くありません
      以前少しだけ公開されてすぐ取り下げられた7B版の vibevoice-community について話していて、今は chatterbox turbo と、ときどき qwen TTS を使い続けています
    • なぜ今日こんなに急に注目されているのかわかりません
      Twitterでもこの話ばかりです
    • TTSも良くありませんでした
      数日使ってみましたが、まず1.5Bモデルのドキュメントがなく、0.5B realtime モデルはひどいものでした
      テキストを行単位で変換するのに、ランダムに音楽を挿入し、 のような特殊文字もまともに処理できませんでした
      正直かなりがっかりです
    • 今のSOTAはこれよりはるか先を行っています
    • この話のおかげでかなり時間を節約できました
      repo のスターもすぐ外して、そのままスルーします
  • この種のモデルをオープンソースと呼ぶのはもうやめるべきだと思います
    実際にはopen weightでしかなく、学習コードはプロプライエタリで、公開されたこともありません
    https://github.com/microsoft/VibeVoice/issues/102

    • 今やfreewareをオープンソースと呼ぶ時代に生きています
      すみません、Stallman
    • 私がこの不満を向けているのは、非オープンソースライセンスで配布されているのにオープンソースと呼ばれるモデルです
      プロジェクトにオープンソースと書かれているとき、実際に自分が何をできるのかのほうが重要です
    • この船はもう出てしまいました
      open source vs open weight の区別は、今では hacker/cracker や GIF の発音論争のようなカテゴリに入ったようです
    • 逆に考えると、私がMITコードをバイナリだけ渡してソースを最後まで送らなかったとしても、そのコード自体は依然としてオープンソースであり得ます
      アクセス権がないだけで、ライセンスそのものは MIT という意味です
      それでも Microsoft がここで開放性を誇張しているという点には完全に同意しますし、驚くことでもありません
    • 少なくともMITライセンスなのは救いです
      非公開の学習データも気になりますが、私にとっては制限の多いライセンスのほうがより気になります
  • このカテゴリではVoxtralのほうがずっと良いと思います
    しかもwebGPUで動かせるくらい小さいです
    https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU

  • この repo/product/author については、Kevin Beaumont が興味深い話を投稿しています
    https://cyberplace.social/@GossiTheDog/116454846703138243

    • リンクを隠そうと必死な様子が実に印象的です
  • これって Microsoft が公開した後、すぐセキュリティ/安全性の理由で取り下げたあのプロジェクトではないでしょうか
    その後何が変わったのか気になります

    • readme のNewsセクションを見ればわかります
      元の TTS モデルはこの repo から消えていますが、他の場所ではまだ見つけられます
      その代わり、SST/ASR、long form TTS、streaming TTS モデルはより新しいものです
    • 少なくとも私にはかなり紛らわしいです
      このプロジェクトが、今言ったような複数の領域を一度に扱っているからです
  • Microsoft のようなところが vibe を AI 製品用語として公式化するのは興味深いです

    • 特にvibe codedには、理解せずに急いで継ぎはぎで作るという否定的なニュアンスがあり得るので、なおさらです
    • もしかすると、90年代の IBM の呪われた STT であるVia Voiceをもじった駄洒落だったのかとも思います
    • むしろCopilotと呼びたい誘惑を抑えたことのほうが驚きです
  • 私が作ったspeech-swiftも、VibeVoice のようにオンデバイス音声処理に焦点を当てています
    ただしクラウド依存なしで Apple Silicon の能力を活用し、ASR, TTS, VAD を動かせるようにしました
    ASR は 52 言語をサポートし、real-time factor は 0.06 です
    https://soniqo.audio/benchmarks

  • Simon の昨夜の記事は良かったです
    https://simonwillison.net/2026/Apr/27/vibevoice/

    • 参考までに、あの記事が扱っているのはSpeech-to-Text / Speech-Recognitionの部分だけです
      whisper に近い領域で、それ以外に long-form TTS と streaming TTS のモデルも別にあります
    • VibeVoice が最大 1 時間の音声しか処理できないとのことですが、
      なぜなのか気になります
  • コンピュータの基本音声としてMicrosoft Samを選びました

    • 友人たちとコンピュータ室でMicrosoft Samに長い文字列を入れて、変な効果音を作って遊んでいた記憶があります
      Sususususususu
  • うわ、ついにCopilotではない名前の Microsoft AI 製品が出ましたね

    • Vopilotと呼んでいたらぴったりだったかもしれません