22 ポイント 投稿者 xguru 2024-07-06 | 6件のコメント | WhatsAppで共有
  • 映画、ポッドキャスト、インタビューなどで背景ノイズを除去し、音声だけをクリアに抽出してくれる
  • 最大サイズは500MB、最長1時間の音声まで対応
  • 音楽ボーカル向けに設計・最適化されているわけではない(コンテンツによってはうまくいく可能性あり)
  • まだリアルタイムストリーミング向けAPIは公開していないが、近日公開予定
  • 利用料金は音声1分あたり1000文字

6件のコメント

 
savvykang 2024-07-06

Voice Isolator の料金はどれくらいですか?
Voice Isolator は、音声1分ごとに1000文字分のコストがかかります。

これはどういう意味でしょうか? なぜ文字数が出てくるのか分かりません

 
brainer 2024-07-06

トークンのような概念ではないですか?

GPTで画像も text token のように計算されるように。

 
savvykang 2024-07-06

会社が提供しているほかのサービスを見ると納得できます。Speech to text to Speech 方式のようですね。だから中間テキストに対して課金しているのでしょう。

 
qyurila 2024-07-06

一方、さまざまなオープンモデルによるボーカル分離を無料・有料で提供しているMVSepでも、数種類の音声/ノイズ分離モデルを提供しています。
https://mvsep.com

 
xguru 2024-07-06

Adobe Podcast AIも似たような機能を提供しています。無料版もあるようです https://podcast.adobe.com/enhance

 
brainer 2024-07-06

無料版基準では、韓国語は最適化されていない感じでしたね…。