Omni SenseVoice - 単語ごとのタイムスタンプに対応した高速音声認識
(github.com/lifeiteng)- 自動音声認識(ASR)、音声言語識別(LID)、音声感情認識(SER)、音声イベント検出(AED)などの機能を備えた、多言語音声理解モデル SenseVoice ベース
- 超高速推論と正確なタイムスタンプに最適化されており、よりスマートかつ高速にオーディオの文字起こしを処理可能
- 主なオプション
--language: 言語を自動検出/指定(auto, zh, en, yue, ja, ko)--textnorm: 逆テキスト正規化を適用するか選択(逆正規化された場合は withitn、生テキストの場合は woitn)--device-id: 特定の GPU で実行(デフォルト: CPU の場合は -1)--quantize: 高速処理のため量子化モデルを使用
1件のコメント
韓国語がオプションにあるので、試してみたいですね(笑)