5 ポイント 投稿者 xguru 2022-12-31 | まだコメントはありません。 | WhatsAppで共有
  • OpenAI Whisperは非常に高精度な文字起こしを生成するが、タイムスタンプが単語単位ではなく発話レベル(Utterance)単位のため、数秒程度の不正確さがある
  • Wav2vec2.0のような音素ベースASR(Phoneme-based)と強制アラインメント(Forced Alignment)を用いて、Whisperモデルのタイムスタンプを改善
  • 基本言語として {en, fr, de, es, it, ja, zh, nl} を提供。追加言語はHuggingface Model Hubで探してテストが必要

まだコメントはありません。

まだコメントはありません。