1 ポイント 投稿者 GN⁺ 2023-07-18 | 1件のコメント | WhatsAppで共有
  • SoundStorm は、効率的で自己回帰型ではないオーディオ生成のためのモデルです。
  • このモデルは、双方向アテンションと信頼度ベースの並列デコーディングを用いてオーディオトークンを生成します。
  • 他のアプローチと比較すると、SoundStorm は同等のオーディオ品質と一貫性を維持しながら、100倍高速です。
  • TPU-v4 で、SoundStorm はわずか 0.5 秒で 30 秒のオーディオを生成できます。
  • このモデルは、話している内容、話者の声、話者の切り替わりを制御し、高品質で自然な対話を合成できます。
  • SoundStorm は、音声プロンプトとともに意味トークンに基づくオーディオを生成できます。
  • このモデルは、音声プロンプトから話者の声を維持したまま高音質のオーディオを生成します。
  • SoundStorm は、他のモデルと比べてより高品質なオーディオを生成します。
  • このモデルは、学習データのバイアスの影響を受ける可能性があるため、誤用を防ぐための注意が必要です。
  • SoundStorm は専用分類器によって検出可能であり、誤用のリスクを低減します。
  • このモデルは、オーディオ生成研究をより広いコミュニティにとってアクセスしやすくするために開発されました。

1件のコメント

 
GN⁺ 2023-07-18
Hacker Newsのコメント
  • CGI業界は、現実的な映像と音声を作るために大きな進歩を遂げてきました。
  • 対話音声合成技術は、機械が人間と区別できない音を出すというマイルストーンに到達しました。
  • 以前はTTS技術の音質が悪いこともありましたが、今では高品質な選択肢があります。
  • 投稿者は、この技術がいつラズベリーパイのようなデバイスで利用可能になるのか気にしています。
  • BingとBardは高度な音声技術を使っていますが、こうした進歩が公開APIやユーザーインターフェースを通じて利用可能になることを望んでいます。
  • 技術の進歩によって生まれる新しい仕事は、しばしば低賃金で卑しい仕事です。
  • SoundStormは、話者の切り替わりを示す|が記された文字起こしを使って対話を生成するよう訓練されました。
  • Barkモデルも対話を生成しますが、ときどき話者の切り替わりを見逃します。
  • わずか3秒のソース素材から30秒のTTSを生成できる能力は印象的です。
  • UpWorkやFiverrのような労働市場は、自分たちのサービスを実行できるソフトウェアの利用可能性に適応する必要があるかもしれません。
  • Linuxユーザーは、簡単に設定できるTTS音声を探しています。
  • コメント投稿者はAI生成のゲームには興味がなく、人間が書いたNPCの会話を好みます。
  • SoundStormの出力例は印象的ですが、いくつか細かな欠点があります。
  • 広告で許可なくAI生成音声を使用した場合、法的問題が発生する可能性があります。
  • SoundStorm PyTorchリポジトリのGitHubリンクが提供されています。