OpenAIのWhisperも使ってみて、NCPのClovaも試しましたが、韓国語のマルチスピーカー識別は思った以上にかなり難しいようです。
もしかして、実際に使ってみたローカルまたはクラウド、商用モデルの中でおすすめできるものはありますか?
想定しているプロセスは、
- コンテンツ収集 > 音声分離(Music、Effect、Voice) > 音声波形分析 > 音声内のマルチスピーカー分離 > 話者ごとにSTT実行 > タイムコード情報ベースで台本作成、という流れで進める予定です。
成果物によっては、吹き替え/字幕制作まで拡張できそうです。
私が見ている基準は次のとおりです。
- 音声分離の出力結果はどうか?
- 音声ベースで同一人物の声を認識・区別できるか?
ぜひ皆さんのご意見をお願いします!
5件のコメント
最近いろいろ試してみたところでは、複数話者の識別は Cloava がうまくやってくれます。
適度な品質でよければ、上でおすすめされていたリターンゼロでも問題ありません。
STT の品質が少し低くても、結果を性能の良い LLM に渡せば、ある程度満足できる結果を示してくれます。
私の場合は話者認識が重要ではなかったので Gemini を採用しましたが、
各ソリューションには長所と短所があるため、結局はご自身が解決したいデータをいくつかサンプリングして選ぶことをおすすめします。
https://developers.rtzr.ai/docs/stt-file/diarization/
話者分離だけを単独で使うことはできませんが、STTと組み合わせたAPIが提供されています。(OpenAIやClovaも同様)
話者分離はDagloがうまかった気がしました。
おお、そうなんですか?! これはプラットフォームですか? 私はローカルLLMやAPIベースで動作する形を探しています!
はい、残念ながらDagloではローカルLLMは提供していないようですね!
有料ですが、APIの提供もしているようです。 (https://developers.daglo.ai/guide/)