AudioGen:状況説明テキストを用いたオーディオ生成
(felixkreuk.github.io)- 「犬が公園で吠える」「風が吹く中で口笛を吹く音」「大勢の人が歓声を上げる前で男性が演説する」といった音を生成可能
- オーディオ生成にはさまざまな課題がある
- 音を出す対象を分離するのが難しく、実環境における多様な録音条件によってさらに複雑になり、このような状況に対するアノテーションも不足しているため、モデルの学習が難しい
- こうした問題を緩和するために、多様なオーディオサンプルを混合し、モデルが複数の音源を分離する技術を内部的に学習するようにする増強技術(augmentation technique)を提案
まだコメントはありません。