- 長く使われるデジタル音声アシスタントには、きれいな合成音よりも、感情・リズム・文脈を反映する 音声プレゼンス(voice presence) のほうが重要であり、Sesame はそのために Conversational Speech Model を提案している
- CSM はテキストと音声を同時に処理する エンドツーエンドのマルチモーダル transformer で、会話履歴を活用して、より自然で一貫した発話を生成するよう設計されている
- モデルは RVQ トークンを直接扱うが、0番目のコードブックを担う バックボーン と、残りのコードブックを復元する小さなオーディオデコーダに分けることで、遅延と表現力のバランスを狙っている
- 約 100万時間 の主に英語の公開音声データで Tiny、Small、Medium の3つのサイズを学習し、WER・話者類似度に加えて、同形異音語の発音と発音の一貫性評価を追加した
- 文脈がない場合は CSM-Medium と実際の音声の間に明確な選好差はなかったが、会話文脈 が与えられると、実際の録音のほうがより適切な続きの発話として好まれ、会話韻律にはなお差が残っている
音声プレゼンスと目標
- Sesame の目標は、話し声が実際に理解され、価値あるものとして感じられる 音声プレゼンス を実現することにある
- 現在のデジタル音声アシスタントは中立的な話し方にとどまることが多く、初期の物珍しさが消えた後は、日常で継続的に使われにくい
- 必要な構成要素は4つに整理される
- 感情知能: 感情的文脈を読み取り、反応する
- 会話ダイナミクス: 自然なタイミング、間、割り込み、強調を処理する
- 文脈認識: 状況に合わせてトーンとスタイルを調整する
- 一貫した人格: 信頼でき、適切なプレゼンスを保つ
- 現在のデモのコンパニオンは、親しみやすさと表現力を重視するよう最適化されており、人格・記憶・表現力・適切さはまだ改善中である
Conversational Speech Model の問題設定
- 従来の TTS はテキストから音声を直接生成するが、自然な会話に必要な 文脈認識 が不足している
- 最近のモデルは人間らしい音声を作れても、1つの文の話し方には複数の可能性があり、特定の状況に合うのはその一部にすぎない
- トーン、リズム、会話履歴のような追加文脈がなければ、モデルは最も適切な発話方法を選びにくい
- CSM はこの問題を エンドツーエンドのマルチモーダル学習 で扱い、transformer が会話履歴を利用して、より自然で一貫した音声を生成できるようにする
- 中核的な特徴は2つある
- 単一段階モデルとして動作し、効率と表現力を高める
- 一般公開評価が飽和している状況で、文脈能力の進展を測るための別個の評価セットを用いる
オーディオトークンと RVQ 設計
- transformer でオーディオをモデリングするには、連続波形を離散的な オーディオトークン の系列に変換する
- 現代的なアプローチは通常2種類のトークンを使う
- セマンティックトークン: 意味と音素特徴を圧縮して保持し、高忠実度表現は犠牲になる
- 音響トークン: 細かな音響情報を保持して高忠実度の復元を可能にし、話者同一性や音色のような特性を維持する
- 一般的な方式はセマンティックトークンを先にモデリングし、その後 RVQ や拡散ベースの手法でオーディオを生成する
- この2段階方式は構造化された合成を可能にするが、セマンティックトークンが韻律まで十分に担わなければならないという ボトルネック を生む
- RVQ ベースの方式では、1フレーム内のコードブック間の逐次依存を処理する必要がある
- delay pattern は上位コードブックを段階的にずらして、同一フレームの下位コードブックに条件付けする
- RVQ tokenizer に N 個のコードブックがある場合、最初のオーディオ片をデコードする前に N 回のバックボーンステップが必要となり、time-to-first-audio が悪化する
- オーディオブックのようなオフライン用途には適しているが、リアルタイムシナリオでは遅延が問題になる
CSM の構造と推論方式
- CSM は RVQ トークンを直接扱う マルチモーダルなテキスト・音声モデル である
- 構造は2つの自己回帰 transformer に分かれる
- 1つ目のマルチモーダルバックボーンは、テキストとオーディオを交互入力として受け取り、0番目のコードブックをモデリングする
- 2つ目のオーディオデコーダは、各コードブックごとに個別の linear head を使って残りの N−1 個のコードブックをモデリングし、音声を復元する
- デコーダはバックボーンよりはるかに小さく、低遅延生成を可能にしつつ、モデルをエンドツーエンドに保っている
- 推論は次の流れに従う
- テキストトークンとオーディオトークンを順次バックボーンに入力する
- バックボーンが0番目のコードブック水準を予測する
- デコーダが0番目の水準に条件付けして、1から N−1 までの水準をサンプリングする
- 復元されたオーディオトークンは、次段階のために再びバックボーンへ自己回帰的に入力される
- audio EOT シンボルが出ると生成は終了し、次のリクエストではユーザー発話のような中間オーディオがオーディオ・テキスト転写トークンとして表現される
- 2つの transformer はいずれも Llama アーキテクチャの変種であり、テキストトークンは Llama tokenizer で生成される
- オーディオは split-RVQ tokenizer である Mimi によって処理され、12.5Hz でフレームごとにセマンティックコードブック1つと N−1 個の音響コードブックを生成する
- 学習サンプルは、テキストとオーディオが交互に現れるパターンであり、話者同一性はテキスト表現の中に直接エンコードされる
学習効率とデータ
- 学習中、オーディオデコーダは B×S の有効バッチサイズと N 個のコードブックを自己回帰的に処理するため、大きな メモリ負荷 を生む
- この負荷は小さなモデルでも学習を遅くし、モデル拡張や高速な実験を難しくする
- Sesame は全 RVQ コードブックの忠実度を保ちながらボトルネックを減らすため、compute amortization を用いている
- オーディオデコーダは、オーディオフレームのランダムな 1/16 の部分集合でのみ学習される
- 0番目のコードブックは全フレームで学習される
- この方式では、学習中のオーディオデコーダ損失に知覚可能な差は見られなかった
- データセットは公開音声を文字起こし、話者分離、分割した後にフィルタリングして構成される
- フィルタリング後のデータは約 100万時間 で、その大半は英語音声である
- 学習したモデルサイズは3種類である
- Tiny: 1B バックボーン、100M デコーダ
- Small: 3B バックボーン、250M デコーダ
- Medium: 8B バックボーン、300M デコーダ
- 各モデルはシーケンス長 2048、約2分の音声を基準に 5 epoch 学習された
サンプルと評価体系
- サンプルには、準言語的要素、外国語単語、文脈的表現力、発音矯正、複数話者の会話などが含まれる
- 評価セットは4つの側面を測定する
- 客観評価には WER、新しい発音テスト、話者類似度などが含まれる
- 主観評価は Expresso データセットを用いた Comparative Mean Opinion Score(CMOS) の人手評価で構成される
- 従来のベンチマークである WER と speaker similarity では、CSM を含む最新モデルがほぼ人間レベルに達しており、飽和状態 に近い
発音と文脈理解の評価
- 新しい音声転写ベースのベンチマークは、発音と文脈理解をより適切に評価するために導入された
- 同形異音語の識別 は、綴りは同じだが発音が異なる単語を正しく発音できるかを評価する
- 例として “lead” が金属の意味の /lɛd/ か、導くという意味の /liːd/ かを区別するケースがある
- 発音の継続発話における一貫性 は、複数の発音変種を持つ単語が複数ターンの音声で一貫して維持されるかを評価する
- 例として “route” が /raʊt/ または /ruːt/ になりうるケースがある
- 同形異音語の正確度評価は、lead、bass、tear、wound、row の5語について、それぞれ2つの変種を含む 200 個の音声サンプルで実施された
- 発音一貫性評価は、aunt、data、envelope、mobile、route、vase、either、adult、often、caramel など10語を含む 200 個の音声サンプルで実施された
- 評価には wav2vec2-lv-60-espeak-cv-ft が用いられた
- Play.ht、Elevenlabs、OpenAI の生成結果は、それぞれの API ドキュメントのデフォルト設定とデフォルト音声で作られた
- 全体として、モデルサイズが大きくなるほど性能は向上し、スケーリングがより現実的な音声合成に役立つという仮説を裏づけている
人手評価の結果
- CSM-Medium の自然さと韻律の適切さを評価するため、Expresso データセットで2回の CMOS 研究を行った
- 評価者はモデル生成音声と実際の人間録音のペアを聞き、基準に対して生成サンプルを7点の選好尺度で評価した
- 1回目の研究では、文脈なしで生成サンプルと人間サンプルを提示し、「どちらがより人間の音声らしく感じられるか」を選ばせた
- 2回目の研究では、直前 90 秒のオーディオとテキスト文脈も一緒に提示し、「どちらが会話としてより適切な続きの発話に感じられるか」を選ばせた
- 80人が有償で参加し、各参加者は平均 15 例を評価した
- 文脈がない場合、評価者は生成音声と実際の音声の間で明確な選好を示さず、自然さ評価が飽和状態にあることを示唆した
- 文脈が含まれると、評価者は一貫して元の録音を好み、対話型音声生成において人間の韻律との 隔たり がなお残っていることが示された
公開計画と限界
- Sesame は研究の中核構成要素をオープンソースとして公開する計画であり、モデルは Apache 2.0 ライセンスで提供される予定である
- アップデートと貢献は SesameAILabs/csm の GitHub リポジトリで確認できる
- 現在の CSM は主に英語データで学習されている
- データ汚染により一部の多言語能力が見られるが、まだ十分には機能しない
- 事前学習済み言語モデルの重み内の情報も活用していない
- 今後数か月で、モデルサイズの拡大、データセット規模の増加、20言語以上への対応拡大を計画している
- 事前学習済み言語モデルを活用する方法も探り、音声とテキストの両方に深い知識を持つ大規模マルチモーダルモデルを目指す
- CSM は高品質な会話韻律を生成するが、会話のテキストと音声内容のみをモデリングしており、会話構造自体はモデリングできない
- 人間の会話は、ターンテイキング、間、速度調整などを含む複雑な過程であるため、将来の AI 会話は、こうしたダイナミクスをデータから暗黙的に学習する 完全双方向(fully duplex)モデル に近づく
- 完全双方向モデルには、データキュレーションから事後学習の方法論まで、スタック全体にわたる根本的な変化が必要になる
まだコメントはありません。