これが ASK GN に合っているのかは分からないのですが…! ただ、ニュースや Show ではなさそうなのでここに投稿します。
以前いただいたご意見をもとに作ってみています。
偶然にも一緒に働いている事業担当の友人にもそういうアイデアがあり、非開発者2人で MVP を作ろうと悪戦苦闘しています。
(Claude Code 5X + API の費用はすべて自腹です… 事業担当の友人は酒と食べ物を提供してくれています…笑)
ドラマ/バラエティ/映画などのコンテンツを前提に作っているので、使えるモデルが限られているんですよね。
それでいろいろ探した末に、Whisper(Open AI API) と Pyannote、Assembly AI を使っています。
pyannote は無料期間が終わってしまって課金が必要なのですが、使用量課金ではなくサブスクリプション($19/month)なので見送り、
Deepgram Nova-3 でテスト中です。 (会員登録すると $200 もらえます。)
ただし… やはり pyannote を使わないと話者分離が難しく、replicate.com の meronym/speaker-diarization で話者分離を行っています。
最終結果を見ると、それでもだいたい話者分離はできています。
Clova と比較する予定なので、比較結果も共有します!
ここから次の悩みは、
- 話者分離は音声ベースで進めていますが、ここに顔認識機能を追加すると、より精度が上がるでしょうか?
- 顔認識に必要なメタデータは、どうやって収集すればよいでしょうか?
- ドラマ/映画/バラエティなどのコンテンツを前提にするなら、メタデータはどこから得ればよいのでしょうか? (NAVER、Namuwiki など)
- メタデータを収集することで、コストや時間に見合うだけ品質は良くなるでしょうか?
もしこのあたりを検討されたことのある先輩方がいらっしゃれば、ぜひ多くのアドバイスをお願いします…!!!
まだコメントはありません。