AudioGen：状況説明テキストを用いたオーディオ生成

xguru · 2022-10-04T10:28:48+09:00

「犬が公園で吠える」「風が吹く中で口笛を吹く音」「大勢の人が歓声を上げる前で男性が演説する」といった音を生成可能オーディオ生成にはさまざまな課題がある音を出す対象を分離するのが難しく、実環境における多様な録音条件によってさらに複雑になり、このような状況に対するアノテーションも不足しているため、モデルの学習が難しいこうした問題を緩和するために、多様なオーディオサンプルを混合し、モデルが複数の音源を分離する技術を内部的に学習するようにする増強技術（augmentation technique）を提案

(felixkreuk.github.io)

12 ポイント投稿者 xguru 2022-10-04 | まだコメントはありません。 | WhatsAppで共有

「犬が公園で吠える」「風が吹く中で口笛を吹く音」「大勢の人が歓声を上げる前で男性が演説する」といった音を生成可能
オーディオ生成にはさまざまな課題がある
- 音を出す対象を分離するのが難しく、実環境における多様な録音条件によってさらに複雑になり、このような状況に対するアノテーションも不足しているため、モデルの学習が難しい
こうした問題を緩和するために、多様なオーディオサンプルを混合し、モデルが複数の音源を分離する技術を内部的に学習するようにする増強技術（augmentation technique）を提案

AudioGen：状況説明テキストを用いたオーディオ生成

関連記事

まだコメントはありません。