対話型オーディオ向け初のオープンソース基盤モデル、Hertz-dev
(si.inc)- hertz-devは、2人が同時に話す状況まで扱える8.5Bパラメータのfull-duplex音声専用基盤モデルとして公開され、リアルタイム音声エージェント研究の出発点となる
- アーキテクチャはhertz-codecとhertz-arに分かれ、16kHz音声を8Hzの潜在表現に変換した後、過去の潜在値をもとに次の音声潜在値を自己回帰方式で予測する
- 単一のRTX 4090基準で実測平均レイテンシは120msとベンチマークされ、理論上の平均レイテンシは80msで従来の最高水準より2倍低いとされる
- hertz-codecは125msフレームごとに32次元の潜在値を1つ生成し、hertz-arは40層・8.4Bパラメータのdecoder-only transformerと約4.5分のコンテキストを使用する
- 強化学習によるチューニングで応答分布を狭めた製品向けモデルではなく、学習データ分布を予測する基盤モデルであるため、研究者が対話型オーディオ作業向けに微調整しやすい
Hertz-devが狙う対話型オーディオの課題
- 自然なインタラクティブエージェントには、テキストよりも即時性の高いオーディオモダリティが重要
- 生成オーディオのアプローチは大きく拡散ベース方式と自己回帰方式に分かれ、音楽生成や短いサンプルでは拡散モデルが強い一方、実際の対話型オーディオには自己回帰方式のほうが適している
- 対話型モデルが解決すべき中核的な難題は2つある
- 人間らしく聞こえる音声生成と自然な割り込み処理
- 一般的な人間の会話のように、2つのリアルタイムチャネルが同時に情報を生成する状況への対応
公開モデルとレイテンシ
- hertz-devは、8.5Bパラメータ、full-duplex、音声専用の基盤モデル
- 2話者形式に合わせて設計されており、重なり合う2話者の音声を解析し生成できる
- 量子化された音声学的ビットを使う潜在空間で動作し、各タイムステップごとに1つの潜在値だけをサンプリングする
- レイテンシは次のように示されている
- 理論上の平均レイテンシ: 80ms
- 単一RTX 4090での実測ベンチマーク: 120ms
- 従来の最高水準より2倍低い数値
モデル構造: hertz-codecとhertz-ar
- hertz-devは2つの構成要素に分かれる
- hertz-codec: 音声を潜在値にエンコードし、再び音声に復元する
- hertz-ar: 過去の潜在値を条件として未来の潜在値を予測する
- 音声潜在値は、複数のダウンストリームタスクに使える豊かな事前表現として扱われる
-
hertz-codec
- hertz-codecはモノラル16kHz音声を受け取り、8Hz潜在表現にエンコードする畳み込み音声VAE
- KL正則化された1kbpsビットレートを使用する
- ストリーミング推論のためにcausal convolutionを使い、機能的にはシーケンス左側にパディングを追加する
- コーデックは平均と分散のガウスパラメータを出力し、125msフレームごとに単一の32次元潜在値としてサンプリングする
- 主観評価では、hertz-codecは6kbpsのSoundstreamとEncodecを上回り、8kbpsのDACと同等水準と評価された
- 人気のトークナイザより秒あたりトークン数が少なく、言語モデリングに有利
- パラメータ構成
- エンコーダ: 5Mパラメータ
- デコーダ: 95Mパラメータ
- 公開チェックポイント
- inference_apatosaurus_95000.pt: 混合再構成、敵対的損失、KL正則化損失で学習した
hertz-codecの重み - inference_volcano_3.pt: 各潜在値から音声学的に重要な15ビットを蒸留する
hertz-codec quantizer
- inference_apatosaurus_95000.pt: 混合再構成、敵対的損失、KL正則化損失で学習した
-
hertz-ar
- hertz-arは40層・8.4Bパラメータのdecoder-only transformer
- 入力コンテキストは2048トークンで、約4.5分に相当する
- 出力潜在値はhertz-codecに渡すことができる
- 最初の32層は潜在履歴を入力として受け取り、次の音声潜在トークンの15ビット量子化射影値を予測する
- この32層部分は
hertz-lmと呼ばれ、独立して学習することも、言語モデルの重みから初期化することもできる - 最後の8層は潜在履歴と15ビット量子化潜在値を使って、未来の音声潜在トークンを予測する
- duplex音声は後段学習タスクとして処理する
- 2つのprojection headを連結した後で分離する
- それぞれのresidualを条件とする2つの量子化projection pipelineで処理する
- 公開チェックポイント
- inference_caraway_112000.pt: 2Tトークンで学習した言語モデルから初期化した
hertz-lmの重み - inference_syrup_110000.pt: ランダム初期化後、音声潜在値で完全学習した
hertz-lmの重み - inference_whip_72000.pt: 最後の8層用の
hertz-ar重み - inference_care_50000.pt, inference_scion_54000.pt:
hertz-ar用duplexチェックポイント
- inference_caraway_112000.pt: 2Tトークンで学習した言語モデルから初期化した
サンプル生成と学習上の選択
- モデルの音声モデリング能力を示すため、単一チャネル生成、2チャネル生成、人間とモデルのライブ対話サンプルを提供している
- インタラクティブサンプルには9秒プロンプトが含まれる
- 主な学習上の選択は次の通り
- hertz-codecには、並列デコードと潜在生成のより細かな制御のためCausal ConvNetsを使用する
- 15ビット量子化潜在値は音声学情報を持つよう初期学習されており、モデルが構文的に正しい発話を生成するよう導く
- 量子化はMLP projectionをFinite Scalar Quantization layerに通して行う
hertz-lmでは2つの初期化戦略についてアブレーション実験を行い、テキストモデル初期化の有無にかかわらずlinguisticsを効果的に学習したとされる
リアルタイム推論方式
- ライブ推論中、モデルは毎秒8回のforward passを実行し、継続的に自己回帰生成を続ける
- 入力は2つの別チャネルだが、対話では1つのチャネルだけを返す
- 各ステップでは、人間の音声を潜在値にトークン化し、モデルが最後に生成した潜在値と結合して
hertz-arに入力する - レイテンシは、ユーザー発話とモデル応答の間の平均時間として測定される
- 計算上の平均レイテンシは62.5msで、任意発話と1トークン終了の間の平均時間、forward pass時間、往復インターネット遅延を含む
- ローカルRTX 4090で実行した場合、実際の平均レイテンシは通常120ms
- 低レイテンシは、遅延して途切れる電話のように感じさせず、人間らしく相互作用するモデルを作るための条件である
公開の性格と活用位置
- hertz-devは、対話型オーディオ向け初の公開基盤モデルとして紹介されている
- ここでいう基盤モデルとは、強化学習チューニングで生成分布を大きく狭めたモデルではなく、学習データの分布を正確に予測するモデルを意味する
- この性質により、さまざまなダウンストリームタスクの微調整の出発点として活用しやすい
- 関連リソース
まだコメントはありません。