WhisperX - タイムスタンプ精度を改善したWhisperベースのASR
(github.com/m-bain)- OpenAI Whisperは非常に高精度な文字起こしを生成するが、タイムスタンプが単語単位ではなく発話レベル(Utterance)単位のため、数秒程度の不正確さがある
- Wav2vec2.0のような音素ベースASR(Phoneme-based)と強制アラインメント(Forced Alignment)を用いて、Whisperモデルのタイムスタンプを改善
- 基本言語として {en, fr, de, es, it, ja, zh, nl} を提供。追加言語はHuggingface Model Hubで探してテストが必要
まだコメントはありません。