2 ポイント 投稿者 somang04 12 일 전 | 5件のコメント | WhatsAppで共有

OpenAIのWhisperも使ってみて、NCPのClovaも試しましたが、韓国語のマルチスピーカー識別は思った以上にかなり難しいようです。
もしかして、実際に使ってみたローカルまたはクラウド、商用モデルの中でおすすめできるものはありますか?

想定しているプロセスは、

  1. コンテンツ収集 > 音声分離(Music、Effect、Voice) > 音声波形分析 > 音声内のマルチスピーカー分離 > 話者ごとにSTT実行 > タイムコード情報ベースで台本作成、という流れで進める予定です。

成果物によっては、吹き替え/字幕制作まで拡張できそうです。

私が見ている基準は次のとおりです。

  • 音声分離の出力結果はどうか?
  • 音声ベースで同一人物の声を認識・区別できるか?

ぜひ皆さんのご意見をお願いします!

5件のコメント

 
sungwoo 5 일 전

最近いろいろ試してみたところでは、複数話者の識別は Cloava がうまくやってくれます。
適度な品質でよければ、上でおすすめされていたリターンゼロでも問題ありません。
STT の品質が少し低くても、結果を性能の良い LLM に渡せば、ある程度満足できる結果を示してくれます。

私の場合は話者認識が重要ではなかったので Gemini を採用しましたが、
各ソリューションには長所と短所があるため、結局はご自身が解決したいデータをいくつかサンプリングして選ぶことをおすすめします。

 
arthurk 6 일 전

https://developers.rtzr.ai/docs/stt-file/diarization/
話者分離だけを単独で使うことはできませんが、STTと組み合わせたAPIが提供されています。(OpenAIやClovaも同様)

 
yunsub2 12 일 전

話者分離はDagloがうまかった気がしました。

 
somang04 12 일 전

おお、そうなんですか?! これはプラットフォームですか? 私はローカルLLMやAPIベースで動作する形を探しています!

 
yunsub2 11 일 전

はい、残念ながらDagloではローカルLLMは提供していないようですね!
有料ですが、APIの提供もしているようです。 (https://developers.daglo.ai/guide/)