13 ポイント 投稿者 xguru 2024-11-10 | 1件のコメント | WhatsAppで共有
  • 自動音声認識(ASR)、音声言語識別(LID)、音声感情認識(SER)、音声イベント検出(AED)などの機能を備えた、多言語音声理解モデル SenseVoice ベース
  • 超高速推論と正確なタイムスタンプに最適化されており、よりスマートかつ高速にオーディオの文字起こしを処理可能
  • 主なオプション
    • --language: 言語を自動検出/指定(auto, zh, en, yue, ja, ko)
    • --textnorm: 逆テキスト正規化を適用するか選択(逆正規化された場合は withitn、生テキストの場合は woitn)
    • --device-id: 特定の GPU で実行(デフォルト: CPU の場合は -1)
    • --quantize: 高速処理のため量子化モデルを使用

1件のコメント

 
yangeok 2024-11-12

韓国語がオプションにあるので、試してみたいですね(笑)