SoundStorm: 効率的な並列オーディオ生成

(google-research.github.io)

1 ポイント投稿者 GN⁺ 2023-07-18 | 1件のコメント | WhatsAppで共有

SoundStormは、AudioLMの意味トークンを受け取り、ニューラル音声コーデックのトークンを並列生成することで、長時間オーディオ生成の計算負荷を減らすモデル
双方向アテンションと信頼度ベースの並列デコーディングにより、自己回帰方式よりも音声と音響条件の一貫性を高めつつ、同等レベルの品質を目指す
TPU-v4で30秒のオーディオを0.5秒で生成し、AudioLMの音響生成器よりも二桁倍高速な速度を示す
SPEAR-TTSと組み合わせると、台本、短い音声プロンプト、話者切り替え注釈を制御して、30秒の自然な対話を単一のTPU-v4で2秒で合成できる
音声模倣はなりすましや生体認証回避に悪用される可能性があるため保護策が必要であり、置換後に生成されたオーディオは専用分類器で98.5%検出可能だった

SoundStormの生成方式と性能

SoundStormは、効率的な非自己回帰オーディオ生成モデル
入力はAudioLMの意味トークンで、出力はニューラル音声コーデックのトークン
生成性能は2つの設計に基づく
- 双方向アテンションで前後の文脈を同時に活用する
- 信頼度ベースの並列デコーディングで複数のトークンを一度に生成する
AudioLMの自己回帰生成方式と比べて、同じ品質のオーディオを作りながら、音声と音響条件の一貫性はより高い
TPU-v4で30秒のオーディオを0.5秒で生成する

対話合成

SoundStormは、SPEAR-TTSのテキスト-意味モデリング段階と組み合わせることで、高品質で自然な対話を合成できる
制御可能な要素は3つ
- 台本による発話内容
- 短い音声プロンプトによる話者の音声
- 台本注釈による話者切り替え
30秒の対話区間の合成ランタイムは、単一のTPU-v4で2秒と測定された
例に使われたテキストと話者は、学習中に見ていないデータ

プロンプト有無による生成

SoundStormはAudioLMの意味トークンを条件としてオーディオを生成し、3秒の音声プロンプトがある場合とない場合の両方を実演する
プロンプトがなければ異なる話者をサンプリングする
プロンプトがあれば話者の音声を高い一貫性で維持する
元サンプルはLibriSpeech test-cleanから取得した
生成速度はAudioLMの音響生成器より二桁倍速い

ベースラインモデルとの比較

プロンプトベース生成で、SoundStormはAudioLMより音響的一貫性が高く、プロンプトの話者音声をよりよく保持する
同じモデルでRVQ level-wise greedy decodingと比較すると、SoundStormのほうがより高品質なオーディオを生成する
比較例では、Original、AudioLM、Greedy、SoundStormの出力を並べて提供する

影響と安全性の考慮

SoundStormは、オーディオのニューラル音声コーデックベース表現を高品質かつ効率的に生成するモデル
この作業では、AudioLMとSPEAR-TTSの音響生成パイプラインを置き換える構成要素として使われる
生成サンプルは学習データのバイアスの影響を受ける可能性があり、例には代表的なイントネーションや音声特性などの限界が含まれることがある
プロンプトで話者特性を安定して制御できるが、学習データとその限界に関するより徹底した分析は今後の課題として残っている
音声模倣能力には悪用の可能性がある
- 生体認証回避やなりすましに使われる可能性があるため、保護策が重要
- 置換後に生成されたオーディオは、Borsos et al. (2022)のような専用分類器で98.5%検出可能だった
- より大きなシステムの構成要素として、SoundStormはBorsos et al. (2022)、Kharitonov et al. (2023)で議論されたリスクに追加のリスクを導入する可能性は低いと見なされる
- AudioLMのメモリと計算要件を下げることで、オーディオ生成研究がより広いコミュニティに開かれる可能性がある
- 今後は、合成音声検出の別のアプローチとしてオーディオウォーターマーキングを探る予定

1件のコメント

GN⁺ 2023-07-18

Hacker Newsの意見

CGIには常に到達しつつあるマイルストーンがあった。葉のついた木がついに現実に近づき、風に揺れる草がほぼそれらしくなり、髪の毛やゼリーのようなものの表現が改善される、といった具合で、たいていはPixarの短編が何に注力していたかを示し、その後それが映画に応用されるのを目にしてきた
その次にはモーションキャプチャや、実在の俳優の顔にデジタルの顔をかぶせる技術が現れ、Pirates of the Caribbeanで初めて見たときは衝撃を受けたし、Planet of the Apesの類人猿たちもそうだった。CGI業界の多くの部分は、いまや最も難しい問題が解かれたかのような地点に達したように見える
そして今、Dialogue Synthesisの最初の合成対話「Where did you go last summer? | I went to Greece, it was amazing.」を再生して、また驚かされた。ついに機械が人間と区別できないほど本当に人間らしく話すというマイルストーンに到達した感がある
10〜5年前までは、TTSを使うならAndroidスマホで音声ファイルをレンダリングするのが最善で、ほかは本当にひどかった。特にオープンソース側は悲惨だった
では、将来世代のRaspberry Piにこの品質のモデルをダウンロードして、クラウドなしでHTTP呼び出しだけでオーディオ出力として完璧な音声を出せるようになるまで、どれくらいかかるだろう？ 5年？
- もうひとつの質問は、10オクターブで歌うシステムが現れて、もはや実際の人間の歌手を必要としなくなる、あるいは望まなくなるまでどれくらいか、ということだ
- 「将来世代のRaspberry Piでクラウドなしに完璧な音声を出せるか」なら、5年くらい？たぶんもっと大きなWhisperモデルがその上で動かせるようになる頃には可能になりそうだ。次のRaspberry Piで、何らかの音声モデルの量子化版や最適化版を動かすような形かもしれない
  今でもかなり頑張れば、どんな声でも出せる汎用の大規模モデルではなく、単一音声にファインチューニングした小さなモデルを使うことで、ほぼ可能かもしれない。whisper-tinyはPiでリアルタイム動作しないっけ？しかもPiのGPUも活用していない。(https://github.com/ggerganov/whisper.cpp/discussions/166)
  修正: mediumはPi上でtinyより30倍遅いようなので、自分は楽観的すぎたようだ。Whisper tinyがmediumよりそこまで速いとは知らなかった
  このやり方はTortoiseでもかなりうまく機能して、非常に高速なTortoise品質設定を使いながら、より大きなモデルに近い品質を得られる。もちろん全体を単一音声にファインチューニングすると、すばらしい機能のかなりの部分が失われる。Tortoiseだと依然としてPiには遅すぎるだろうが、同じ戦略がSoundStormのようなもっと高速なモデルには通用する可能性がある
  品質面では、長い音声区間における長期的一貫性にはまだ大きな課題がある。実際の人がオーディオブックを読むときには、ページ上部の単語が下部の単語をどう読むかに大きな影響を与える。10ページ目から300ページ目のように離れていても影響することがある。最高級のTTSモデルでオーディオブックを作って注意深く聴くと、不一致は本当によく分かる。読み手が段落を順不同で録音したかのようだったり、ビデオゲームの台詞のように俳優たちがすべての台詞を別々に録音して互いの演技に反応していないように感じられる
  コンテキストウィンドウを1分、2分に広げればもっと近づき、ある種の本には十分かもしれない。短期的には、人がすべての音声サンプルを調整し、手作業で手を入れて自然にすることもできる。だからファン制作のオーディオブックのように、時間をかけてきちんと合わせる作業は可能になるだろう。しかし完全自動化された本では、この不一致が狂おしいほど気になる。特定の区間の演技がとても近いだけに、トーンがずれた瞬間がいっそう痛く感じられる
- 本当に小さなフォームファクタが必要なら、今でもJetsonを買ってより複雑なモデルを動かせる。ただし高い
- 自分も何年にもわたってCGIの進歩を見て、その節目節目に感嘆してきた。現実のまた別の複雑な一面がレンダリングされていくのを見る喜びは一貫してあった
  だが最近は、人間の創造性や行動を模倣し複製する新しい技法が出るたびに、不安感が積み上がっていく
  自分には、見たり読んだりしているものが生成物かどうかを知る権利があるのだろうか？
- 長くても2年だと思う
BingやBardが最新のMicrosoft、Google Cloud製品を使っているのはよいが、こうした音声技術の進歩がaudio palm(https://google-research.github.io/seanet/audiopalm/examples/)のようなものとともに公開APIやユーザーインターフェースとして出てくるといいと思う
BardのTTSは悪くないが、明らかに遅れている
それとは別に、Bingの英語/韓国語TTSは本当に良い。MicrosoftがEdgeの無料TTSに最上位の製品を使っているとは知らなかったが、そのためGoogleの標準TTS音声よりはるかに優れている
- 最近、製品デモの音声ナレーションにAzure TTSを使ったが、見せた相手の誰一人として人が録音したものではないと気づかなかった
  Azureの音声の中にはさらに良いものもあり、TTSウェブアプリには些細なバグがいくつかあるものの、全体としての体験は本当に満足のいくものだった
- Google Cloud Studio voicesは試した？
  https://cloud.google.com/text-to-speech/docs/wavenet#studio_voices_preview
- 「MicrosoftがEdgeの無料TTSに最上位製品を使っていて、Googleの標準TTS音声を圧倒している」という話は本当に興味深いので、もう少し説明してもらえる？この分野をあまり追えていなくて、解釈が混乱している
  「無料TTSの最上位製品」とはフリーソフトウェアのライブラリという意味なのか、無料SaaSという意味なのか、「on edge」はEdgeブラウザのことなのか、クライアントPCのエッジ実行のことなのか、混乱している。クライアントPC上で動くあらゆるTTSがGoogle標準TTSより優れているという意味？
- 「公開APIやユーザーインターフェース」だなんて、ため息が出る。Googleも以前は一部のモデルを公開していたのに、楽しかった初期の時代は終わりつつあるようだ
職人たちはただ別の仕事を探せばいいと流暢に語るときに見落としているのは、その新しい仕事がしばしば 単純で低賃金 だという点だ。Amazonが地元の店を駆逐すると、彼らは新しい事業を始めるのではなく、Wal-Martの仕事を得ることになる
SoundStormが、発話の切り替えを | で示した台本を書いて2人の会話を作るよう学習されていたという点は興味深い。ところがBarkモデルでも、同じ | 文字がほぼデフォルトで機能して会話を生成しているように見える。
Barkの出力の3分の1、あるいはそれ以上は、独り言のような会話として出てきて、発話の切り替えを取りこぼすことも多い。それでもパイプ文字は、演技スタイルとして会話っぽく聞こえる音声をかなり安定して生み出す。
https://twitter.com/jonathanfly/status/1675987073893904386
学習データのどこかに、発話の切り替えに | を使う テキスト-音声データ があるのだろうか？
面白いことに、BarkはSoundStormのプロンプトを皮肉っぽい調子でレンダリングする傾向がある。モデルのスタイルの違いなのか、Googleが代表サンプルとしてより率直な朗読だけを選んだのかは分からない。
- 制作者たちはそうは言っていないようだが、Barkは一般的な機械学習用オーディオデータセットより YouTubeコーパス を多く学習したように見える。そういう場所の音声にはあの手の書き起こしがあり得るし、そのため [laughs] のようなものも機能するのだと思う
UpWorkやFiverrのような仕事マーケットプレイスが、以前は人間がやっていた多くのサービスを今ではソフトウェアが実行できるという新しい状況に、十分な速さで適応できるのか気になる。
現在のマーケットプレイスのインターフェースは、これに合っていないように見える。買い手は人に連絡して作業が終わるのを待つ代わりに、即座に結果を欲しがるようになるだろう。
だからプラットフォームを アプリストア のように変える必要がありそうだ。売り手は自分のサービスを接続し、買い手はそのサービスをすぐ使うという形だ
- なぜみんな「これがどう人間を置き換えるのか」にばかり集中するのか分からない。単に本当に優れた テキスト読み上げ でしかない
- そのユーザーたちはすでに、自分たちがやるべきことを AIで処理 している。それは問題ないと思う
- 私が見ている利点は セリフ差し替え にある。プロジェクトが終わったあとで俳優を再びスタジオに呼ぶにはかなり時間がかかる。すでに別のプロジェクトに移っているかもしれないし、引っ張りだこの俳優なら予定が詰まっていて、一緒に作業できる時間が限られる。しかも俳優の中には、このプロセス自体があまり得意でない人もいる。だから部屋に長く引き留めて、欲しい演技を引き出さなければならないのだが、その演技が特定の環境で生まれたものならなおさら難しいこともある。
  俳優の以前のセリフをいくつか入れて、決めておいたパラメータに合わせて空白を埋める何かを吐き出し、あらゆるロジスティクス上の問題なしにプロジェクトを進められるツールが手元にあるなら、まさに天国のようだ。
  しかし、それは専門分野を丸ごと1つ潰しかねない。俳優の価値も下げるだろう。実際、すでに起きている。市場には声優を完全に代替するプログラムがすでにあり、ビデオゲーム分野で使われている。
  私の仕事には確かに役立ち得る。同時に、とてつもなく乱用される可能性が高いこともよく分かっている
- 既存の ソフトウェアマーケットプレイス を使えばいいだけでは？
最も印象的なのは、3秒の元音声 だけで30秒のTTSを作り出しているように見える点だ。本当にすごいし、正直、予想よりはるかに先を行っている
最近の進歩を見ると、一般ユーザーが複雑な設定なしで使える Linux向けTTS音声 で、まともなものはあるのだろうか？
こういうやり方で生成されたゲームはやりたくない。NPCの会話を聞きたい正確な理由は、それが 人間が書いた会話 だからだ
印象的だが、最初の例は最後の瞬間に仮想の男性の声が “what?” と言いながら上ずり、オートチューンのようなピッチ補正効果がはっきり聞こえて破綻している。
他の例は文字通り驚異的だ。本当に数秒学習しただけで数分に及ぶもっともらしい声を出力できるなら、次の段階は歌わせることだろう。たとえばElvisの声を広告に使いながら名前は明かさず、ファンには分かるが音声は彼の歌詞や既存曲とは一致しない、というようなことが似た技術で行われれば、法的な嵐 が来ると思う
- 最初の例はSoundStormが作ったものではない気がする。無理やり作ったようで、変調された音のように聞こえる
特に気の利いた話ではないが、すべてのサンプルを同時に再生すると本当に面白い。HTML版Ableton Live のような感じだ

SoundStorm: 効率的な並列オーディオ生成

SoundStormの生成方式と性能

対話合成

プロンプト有無による生成

ベースラインモデルとの比較

影響と安全性の考慮

関連記事

1件のコメント

Hacker Newsの意見