Omni SenseVoice - 単語ごとのタイムスタンプに対応した高速音声認識

xguru · 2024-11-10T09:31:01+09:00

自動音声認識（ASR）、音声言語識別（LID）、音声感情認識（SER）、音声イベント検出（AED）などの機能を備えた、多言語音声理解モデル SenseVoice ベース超高速推論と正確なタイムスタンプに最適化されており、よりスマートかつ高速にオーディオの文字起こしを処理可能主なオプション --language: 言語を自動検出/指定（auto, zh, en, yue, ja, ko） --textnorm: 逆テキスト正規化を適用するか選択（逆正規化された場合は withitn、生テキストの場合は woitn） --device-id: 特定の GPU で実行（デフォルト: CPU の場合は -1） --quantize: 高速処理のため量子化モデルを使用

(github.com/lifeiteng)

13 ポイント投稿者 xguru 2024-11-10 | 1件のコメント | WhatsAppで共有

自動音声認識（ASR）、音声言語識別（LID）、音声感情認識（SER）、音声イベント検出（AED）などの機能を備えた、多言語音声理解モデル SenseVoice ベース
超高速推論と正確なタイムスタンプに最適化されており、よりスマートかつ高速にオーディオの文字起こしを処理可能
主なオプション
- --language: 言語を自動検出/指定（auto, zh, en, yue, ja, ko）
- --textnorm: 逆テキスト正規化を適用するか選択（逆正規化された場合は withitn、生テキストの場合は woitn）
- --device-id: 特定の GPU で実行（デフォルト: CPU の場合は -1）
- --quantize: 高速処理のため量子化モデルを使用

1件のコメント

yangeok 2024-11-12

韓国語がオプションにあるので、試してみたいですね（笑）

Omni SenseVoice - 単語ごとのタイムスタンプに対応した高速音声認識

関連記事

1件のコメント