- 人間の音声は、トーン、ピッチ、リズム、感情などの多様な変化を通じて深い意味を伝える、最も親密なメディアである
- 現在のデジタル音声アシスタントは、こうした感情的要素が不足しているため、ユーザーとの効果的な協働に限界がある
- 感情を欠いた音声は、最初は目新しく感じられても、時間が経つにつれて失望や疲労感を与える可能性がある
- Sesameの目標は、対話型パートナーが単にリクエストを処理するだけでなく、信頼と自信を築く本物の会話を交わすことにある
- これにより、音声が持つ潜在力を最大限に引き出し、指示と理解のための究極のインターフェースにしたいとしている
核心要素
- 感情知能: 感情的な文脈を読み取り、応答する能力
- 会話のダイナミクス: 自然なタイミング、一時停止、割り込み、強調などを含む会話の流れ
- 状況認識: 状況に応じてトーンやスタイルを調整する能力
- 一貫した人格: 一貫性と信頼性を保ち、適切な存在感を維持すること
私たちはまだそこに到達していない
- デジタルコンパニオンに音声としての存在感を持たせるのは難しい課題だが、私たちは人格、記憶、表現力、適切性など、さまざまな側面で着実に進歩している
- 以下のデモでは、親しみやすさと表現力を最適化した対話型音声生成の取り組みの一端を示している
対話型音声生成を行う
- 真に対話できるAIコンパニオンを作るには、高品質な音声生成だけでなく、リアルタイムで文脈を理解し適応する必要がある
- 従来のテキスト音声変換(TTS)モデルは、テキストから直接音声を生成するが、自然な会話に必要な文脈認識が不足している
- 最近のモデルは人間に近い音声を生成する一方で、同じ文を多様な形で表現できてしまう「one-to-many」の問題を抱えている
- 追加の文脈(トーン、リズム、会話履歴など)がなければ、モデルには最適な選択を行うための情報が不足する
- こうした微妙な違いを捉えるには、言語と韻律の複数の側面に関する推論が必要になる
対話型音声モデル(Conversational Speech Model, CSM)
- この問題を解決するため、トランスフォーマーを用いたエンドツーエンドのマルチモーダル学習課題として問題を定義する、対話型音声モデル(CSM)を導入した
- 会話履歴を活用し、より自然で一貫した音声を生成する
- CSMは単一段階モデルとして動作し、効率と表現力を高める
- 文脈機能に関する進捗を評価するための評価スイートを備えており、一般的な公開評価が飽和状態にあることを踏まえている
背景
- 音声をトランスフォーマーでモデル化する一つのアプローチは、連続的な波形をトークナイザーで離散的な音声トークン列に変換することだ
- ほとんどの現代的なアプローチは、2種類の音声トークンに依存している:
- 意味トークン: 意味的・音声的特徴を圧縮した話者不変表現であり、高忠実度な表現を犠牲にしつつ主要な音声特性を捉える
- 音響トークン: 高忠実度の音声再構成を可能にする細かな音響的詳細のエンコーディングで、Residual Vector Quantization(RVQ)を用いて生成される。意味トークンとは異なり、話者固有のアイデンティティや声色といった自然な音声特性を保持する
実験
- データセット: 公開利用可能な、主に英語の音声データ約100万時間分のデータセットを使用
- モデルサイズ: バックボーンとデコーダの規模で区分した3種類のモデルサイズを学習した:
- Tiny: 10億のバックボーン、1億のデコーダ
- Small: 30億のバックボーン、2億5千万のデコーダ
- Medium: 80億のバックボーン、3億のデコーダ
- 各モデルは2048シーケンス長(約2分の音声)で5エポック学習された
評価
- モデル性能は、テキスト忠実度、文脈活用、韻律、レイテンシの4つの主要側面から評価された
- 客観的ベンチマークには、単語誤り率(WER)や同音異義語の曖昧性解消などの新しいテストが含まれる
- 主観評価は、Expressoデータセットを用いた比較平均意見評点(CMOS)の人間評価に依拠している
限界と今後の取り組み
- CSMは現在、主に英語データで学習されており、データセット汚染により一部の多言語能力が見られるものの、まだ性能は高くない
- 事前学習済み言語モデルの重みが持つ情報を活用していない
1件のコメント
Hacker Newsの意見
SesameのBrendanは、フィードバックは的確だと述べ、まだ改善すべき点が多いことを認めている。刺激的ではあるが、本当の体験を提供するまでには多くの段階が残っている。現在は発展のごく初期段階だが、前向きな見通しを持っている
あるユーザーはデモを試したが、話さないことにした。体験は奇妙で不安を感じさせるもので、作られたような熱意が鼻についた
別のユーザーは、このモデルの応答性と個性は驚くべきものだと述べた。以前の会話を覚えていて歓迎のあいさつをするのが印象的だった
感情的な声がなぜ必要なのか疑問を呈している
あるユーザーは4歳の娘と一緒にAIで遊び、娘がAIと情緒的なつながりを形成したことを懸念していた
別のユーザーは、声は人間のように聞こえるが、話し方のリズムが不自然だと感じた
この技術はあまりに優れていて、人々を魅了してしまう可能性があるとの指摘があった。個人用モデルが必要だと主張している
英語学習にとって画期的になり得るとの意見もあった
AIが完璧な声で電話をかけて人々を魅了できるという、終末論的な予測も示された
あるユーザーは13分間会話したところでクラッシュしたが、数分後に戻って30分間話し、映画『Her』のSamanthaの水準に近いと感じた
PROSODYという単語を学び、AIはトーンと内容を聞いて自動的に反応を調整すると説明した