韓国語のマルチスピーカー識別が得意なモデルはありますか？？

2 ポイント投稿者 somang04 2026-05-12 | 5件のコメント | WhatsAppで共有

OpenAIのWhisperも使ってみて、NCPのClovaも試しましたが、韓国語のマルチスピーカー識別は思った以上にかなり難しいようです。
もしかして、実際に使ってみたローカルまたはクラウド、商用モデルの中でおすすめできるものはありますか？

想定しているプロセスは、

コンテンツ収集 > 音声分離（Music、Effect、Voice） > 音声波形分析 > 音声内のマルチスピーカー分離 > 話者ごとにSTT実行 > タイムコード情報ベースで台本作成、という流れで進める予定です。

成果物によっては、吹き替え／字幕制作まで拡張できそうです。

私が見ている基準は次のとおりです。

ぜひ皆さんのご意見をお願いします！

5件のコメント

sungwoo 2026-05-19

最近いろいろ試してみたところでは、複数話者の識別は Cloava がうまくやってくれます。
適度な品質でよければ、上でおすすめされていたリターンゼロでも問題ありません。
STT の品質が少し低くても、結果を性能の良い LLM に渡せば、ある程度満足できる結果を示してくれます。

私の場合は話者認識が重要ではなかったので Gemini を採用しましたが、
各ソリューションには長所と短所があるため、結局はご自身が解決したいデータをいくつかサンプリングして選ぶことをおすすめします。

arthurk 2026-05-18

https://developers.rtzr.ai/docs/stt-file/diarization/
話者分離だけを単独で使うことはできませんが、STTと組み合わせたAPIが提供されています。（OpenAIやClovaも同様）

yunsub2 2026-05-12

話者分離はDagloがうまかった気がしました。

somang04 2026-05-12

おお、そうなんですか？！これはプラットフォームですか？私はローカルLLMやAPIベースで動作する形を探しています！

yunsub2 2026-05-13

はい、残念ながらDagloではローカルLLMは提供していないようですね!
有料ですが、APIの提供もしているようです。 (https://developers.daglo.ai/guide/)