対話型オーディオ向け初のオープンソース基盤モデル、Hertz-dev

(si.inc)

2 ポイント投稿者 GN⁺ 2024-11-04 | まだコメントはありません。 | WhatsAppで共有

hertz-devは、2人が同時に話す状況まで扱える8.5Bパラメータのfull-duplex音声専用基盤モデルとして公開され、リアルタイム音声エージェント研究の出発点となる
アーキテクチャはhertz-codecとhertz-arに分かれ、16kHz音声を8Hzの潜在表現に変換した後、過去の潜在値をもとに次の音声潜在値を自己回帰方式で予測する
単一のRTX 4090基準で実測平均レイテンシは120msとベンチマークされ、理論上の平均レイテンシは80msで従来の最高水準より2倍低いとされる
hertz-codecは125msフレームごとに32次元の潜在値を1つ生成し、hertz-arは40層・8.4Bパラメータのdecoder-only transformerと約4.5分のコンテキストを使用する
強化学習によるチューニングで応答分布を狭めた製品向けモデルではなく、学習データ分布を予測する基盤モデルであるため、研究者が対話型オーディオ作業向けに微調整しやすい

Hertz-devが狙う対話型オーディオの課題

自然なインタラクティブエージェントには、テキストよりも即時性の高いオーディオモダリティが重要
生成オーディオのアプローチは大きく拡散ベース方式と自己回帰方式に分かれ、音楽生成や短いサンプルでは拡散モデルが強い一方、実際の対話型オーディオには自己回帰方式のほうが適している
対話型モデルが解決すべき中核的な難題は2つある
- 人間らしく聞こえる音声生成と自然な割り込み処理
- 一般的な人間の会話のように、2つのリアルタイムチャネルが同時に情報を生成する状況への対応

公開モデルとレイテンシ

hertz-devは、8.5Bパラメータ、full-duplex、音声専用の基盤モデル
2話者形式に合わせて設計されており、重なり合う2話者の音声を解析し生成できる
量子化された音声学的ビットを使う潜在空間で動作し、各タイムステップごとに1つの潜在値だけをサンプリングする
レイテンシは次のように示されている
- 理論上の平均レイテンシ: 80ms
- 単一RTX 4090での実測ベンチマーク: 120ms
- 従来の最高水準より2倍低い数値

モデル構造: hertz-codecとhertz-ar

hertz-devは2つの構成要素に分かれる
- hertz-codec: 音声を潜在値にエンコードし、再び音声に復元する
- hertz-ar: 過去の潜在値を条件として未来の潜在値を予測する
音声潜在値は、複数のダウンストリームタスクに使える豊かな事前表現として扱われる
hertz-codec
- hertz-codecはモノラル16kHz音声を受け取り、8Hz潜在表現にエンコードする畳み込み音声VAE
- KL正則化された1kbpsビットレートを使用する
- ストリーミング推論のためにcausal convolutionを使い、機能的にはシーケンス左側にパディングを追加する
- コーデックは平均と分散のガウスパラメータを出力し、125msフレームごとに単一の32次元潜在値としてサンプリングする
- 主観評価では、hertz-codecは6kbpsのSoundstreamとEncodecを上回り、8kbpsのDACと同等水準と評価された
- 人気のトークナイザより秒あたりトークン数が少なく、言語モデリングに有利
- パラメータ構成
  - エンコーダ: 5Mパラメータ
  - デコーダ: 95Mパラメータ
- 公開チェックポイント
  - inference_apatosaurus_95000.pt: 混合再構成、敵対的損失、KL正則化損失で学習したhertz-codecの重み
  - inference_volcano_3.pt: 各潜在値から音声学的に重要な15ビットを蒸留するhertz-codec quantizer
hertz-ar
- hertz-arは40層・8.4Bパラメータのdecoder-only transformer
- 入力コンテキストは2048トークンで、約4.5分に相当する
- 出力潜在値はhertz-codecに渡すことができる
- 最初の32層は潜在履歴を入力として受け取り、次の音声潜在トークンの15ビット量子化射影値を予測する
- この32層部分はhertz-lmと呼ばれ、独立して学習することも、言語モデルの重みから初期化することもできる
- 最後の8層は潜在履歴と15ビット量子化潜在値を使って、未来の音声潜在トークンを予測する
- duplex音声は後段学習タスクとして処理する
  - 2つのprojection headを連結した後で分離する
  - それぞれのresidualを条件とする2つの量子化projection pipelineで処理する
- 公開チェックポイント
  - inference_caraway_112000.pt: 2Tトークンで学習した言語モデルから初期化したhertz-lmの重み
  - inference_syrup_110000.pt: ランダム初期化後、音声潜在値で完全学習したhertz-lmの重み
  - inference_whip_72000.pt: 最後の8層用のhertz-ar重み
  - inference_care_50000.pt, inference_scion_54000.pt: hertz-ar用duplexチェックポイント

サンプル生成と学習上の選択

モデルの音声モデリング能力を示すため、単一チャネル生成、2チャネル生成、人間とモデルのライブ対話サンプルを提供している
インタラクティブサンプルには9秒プロンプトが含まれる
主な学習上の選択は次の通り
- hertz-codecには、並列デコードと潜在生成のより細かな制御のためCausal ConvNetsを使用する
- 15ビット量子化潜在値は音声学情報を持つよう初期学習されており、モデルが構文的に正しい発話を生成するよう導く
- 量子化はMLP projectionをFinite Scalar Quantization layerに通して行う
- hertz-lmでは2つの初期化戦略についてアブレーション実験を行い、テキストモデル初期化の有無にかかわらずlinguisticsを効果的に学習したとされる

リアルタイム推論方式

ライブ推論中、モデルは毎秒8回のforward passを実行し、継続的に自己回帰生成を続ける
入力は2つの別チャネルだが、対話では1つのチャネルだけを返す
各ステップでは、人間の音声を潜在値にトークン化し、モデルが最後に生成した潜在値と結合してhertz-arに入力する
レイテンシは、ユーザー発話とモデル応答の間の平均時間として測定される
計算上の平均レイテンシは62.5msで、任意発話と1トークン終了の間の平均時間、forward pass時間、往復インターネット遅延を含む
ローカルRTX 4090で実行した場合、実際の平均レイテンシは通常120ms
低レイテンシは、遅延して途切れる電話のように感じさせず、人間らしく相互作用するモデルを作るための条件である

公開の性格と活用位置

hertz-devは、対話型オーディオ向け初の公開基盤モデルとして紹介されている
ここでいう基盤モデルとは、強化学習チューニングで生成分布を大きく狭めたモデルではなく、学習データの分布を正確に予測するモデルを意味する
この性質により、さまざまなダウンストリームタスクの微調整の出発点として活用しやすい
関連リソース

対話型オーディオ向け初のオープンソース基盤モデル、Hertz-dev

Hertz-devが狙う対話型オーディオの課題

公開モデルとレイテンシ

モデル構造: hertz-codecとhertz-ar

hertz-codec

hertz-ar

サンプル生成と学習上の選択

リアルタイム推論方式

公開の性格と活用位置

関連記事

まだコメントはありません。