Smart-turn - オープンソースの音声ターン検出モデル

(github.com/pipecat-ai)

8 ポイント投稿者 GN⁺ 2025-03-10 | 1件のコメント | WhatsAppで共有

ターン検出は音声AIスタックにおいて最も重要な機能の1つであり、人が話しているときに音声エージェントが応答すべきタイミングを決定する技術
ほとんどの音声エージェントはVAD（Voice Activity Detection）ベースで音声を発話区間と無音区間に分けており、音響的・言語的な意味は反映されない
人間は文法、抑揚、話す速度などの複雑な信号を通じてターン検出を行う
- 目標: VADベースのアプローチよりも人間の期待値に近いモデルを構築する
オープンソースを基盤としたコミュニティ主導の音声ターン検出モデル開発プロジェクト
- BSD 2-clauseライセンス → 誰でも利用、フォーク、貢献が可能
- プロジェクトはPipecatエコシステムで始まった
- Pipecat: オープンソースのベンダー中立な音声およびマルチモーダルAIフレームワーク
プロジェクト目標
- 高レベル目標
  - 誰でも簡単に使える
  - 本番環境へ容易にデプロイできる
  - 特定アプリケーション向けに手軽にファインチューニングできる
- 現在のモデルの限界
  - 英語のみをサポート
  - 比較的遅い推論速度: GPUで約150ms、CPUで約1500ms
  - 学習データは主にセグメント末尾で発生する未完の発話（filler words）中心
- 中期目標
  - 多言語対応
  - 推論時間: GPUで50ms以下、CPUで500ms以下
  - より幅広い音声ニュアンスを学習データに反映
  - 完全な合成データ生成パイプラインの構築
  - テキストベースのコンディショニングをサポート（例: クレジットカード、電話番号、住所入力など）
モデルアーキテクチャ
- Meta AIのWav2Vec2-BERTバックボーンベース（パラメータ数: 580M）
  - 143言語、450万時間の自己教師なし学習音声データを使用
- 現在のモデル構造:
  - Wav2Vec2-BERT → 2層分類器（classification head）
  - Hugging FaceのWav2Vec2BertForSequenceClassificationを使用
- 実験中のアーキテクチャ:
  - シンプルな分類器がデータセット拡張時にも有効かをテスト中
  - より複雑な構造の導入可能性を検討中

1件のコメント

GN⁺ 2025-03-10

Hacker Newsの意見

pipecatを使ったことがあり、良かった。だが、ネイティブにコンパイルできてエッジデバイスで実行できる sherpa-onnx に切り替えた
- Google 翻訳アプリを使うとき、長い文を話している途中で少し止まったり、速度を落としたりすることが多いので、会話モードは避けている
- この問題には、低遅延のターン検知と音声中断検知、そして非常に高速な低レイテンシ LLM が必要
- システムが以前の音声を捨てず、最後の文を継続できるようにする優れた復旧機能が必要
- I/O レイテンシ改善のため、低遅延のオーディオ API、非常に短いオーディオバッファ、専用のオーディオカテゴリとモードの使用が必要
- ストリーミングモードで TTS を使えるのかはよく分からない
- よく設計されたプッシュ・トゥ・トークが良い解決策かもしれない
今日、いくつか興味深い更新があった
- CoreML を使った 100ms 推論
- データのサブセットで学習した LSTM モデル
README でほとんどの答えが得られた。よく書かれていた
Wav2Vec2-BERT のファインチューニングに必要なリソースと規模を共有してもらえるのか気になる
ターン検知が何なのか気になる
この技術がさらに進歩していくのを見るのはうれしい
- Siri のような最悪の音声システムから ChatGPT の音声モードまで、コンピューターはこの作業をうまくこなせていない
- 「エージェント」が単純だが有用な作業を行ううえで、最大の障害になるかもしれない
- AI が依然として苦戦する状況は多く、こうしたエラーは会話の効率を壊したり、深刻な機能不全を引き起こしたりする可能性がある
HF 自閉症診断を受けた者として、この技術をイヤーピースに応用したい
いくつかのターンベースモデルを見たが、実装は非常に似通っている。この技術がどう進化していくのか楽しみ
Vedal が Neuro-sama のモデルにこの技術を統合してくれたらいいのに。osu ボットから AI Vtuber へと変身した事例
複数話者をサポートしているのか気になる
フォーク中

Smart-turn - オープンソースの音声ターン検出モデル

関連記事

1件のコメント

Hacker Newsの意見