- ニューラルオーディオコーデックは、音声データを**大規模言語モデル(LLM)**に効果的に入力するための中核的ツール
- 既存のLLM音声インターフェースは主にテキストベースのラッパーであるため、真の音声理解と感情認識には限界がある
- 音声モデリングはテキストとは異なり、サンプル数が多く長期的な一貫性を維持するのが難しいため、効率的な圧縮とトークナイズが必要
- Residual Vector Quantization(RVQ)など最新のニューラルオーディオコーデック手法を使って、音声をLLM向けの離散トークンに変換して処理する
- KyutaiのMimiなど最先端のニューラルオーディオコーデックを適用することで、音声LLMの表現力と品質が一段と改善される傾向にある
ニューラルオーディオコーデックと音声LLM導入の背景
- LLMベースの音声モデルのほとんどは、実際の音声を理解するよりも文字変換→応答→合成の方式を採っている
- 真の音声理解では、感情やイントネーション、皮肉、非言語的ニュアンスの把握が必須
- 一部のモデル(Gemini、ChatGPT Advanced Voice Mode、Qwen、Moshi)は音声入力が可能だが、実質的には深い音声理解能力が不足している
- テキストLLMはデータ、アルゴリズム、計算資源を投入すると急速に高性能化したが、音声データは処理難易度がはるかに高い
テキストと音声のトークナイズアプローチの違い
- テキストはbyte-pair encodingなど比較的シンプルな固定トークナイザーを使っても優れた結果を出せる
- 初期のLSTMやRNNでさえサンプル単位の文字予測だけで合理的な結果を得ていた
- 音声は1秒あたり数万個のサンプルがあり、10秒でも数十万個の時系列予測が必要
- WaveNetのようにサンプルごとに音声生成を行うと、実際の音質は良いが意味伝達には難しさがある
音声モデリングのボトルネックとサンプル単位予測の限界
- サンプルごとの生成は現実的には生成速度が非常に遅く、実質的な意味単位の一貫性も保証できない
- 実験例(151Mパラメータ、1000時間データ)では、ノイズ混入音声や一貫性不足によって実用性が低下
- 音声の高いサンプリングレート(16kHzベース、2048コンテキスト=128ms)は、LLMの文脈処理限界を生む
- リアルタイム音声処理には効果的な圧縮が不可欠
ニューラルオーディオコーデック:オートエンコーダーとRVQ
オートエンコーダーとベクトル量子化(VQ-VAE)基本原理
- 入力(音声、画像など)を小さな**潜在空間(latent space)**に圧縮し、復元する神経ネットワーク構造
- 埋め込みをベクトル量子化(例:k-means)方式で離散化し、LLMへの入力として供給するよう設計されている
- Straight-through estimator技術を使い、非微分可能な特性を迂回的に学習
- Commitment lossを追加して埋め込みとクラスタ中心間の距離を最小化するよう誘導
- VQ-VAEモデル構造は、オートエンコーダーが量子化に適応した形へ発展したもの
Residual Vector Quantization(RVQ)概念
- 多数の量子化レベルが必要な場合、単一クラスタを大量に管理する限界を解決するために残差(Residual)トークンレベルを導入
- 最初の埋め込みを1次量子化し、残差分を追加で量子化する方式で圧縮効率を最大化
- 必要に応じて、2段階以上の多重レベル量子化が可能で、構造の拡張はシンプル(
for level in range(levels) の反復構造)
- RVQはSoundStream(2021)などの最新ニューラルオーディオコーデックに中核的に適用
音声トークナイズとLLM適用
- CNNベースのオートエンコーダーで音声をダウンサンプル(例:128倍、32次元ベクトル)した後、各埋め込みに対して独立したRVQ量子化を実施
- RVQコード出力(例:8レベルRVQ)をそのまま順次1Dトークンシーケンスに展開し、LLM入力として使用
- flattening方式を導入した場合、時間圧縮の一部損失(例:128xダウンサンプリング→8x再拡張)が発生
- コードブックのレベル、レベル数、FLATTEN順などは、それぞれ品質と圧縮率に影響
実際のニューラルオーディオコーデック訓練と品質改善
- 実験結果、RVQレベルが増えるほど復元損失が減少し、音質が向上
- ただし、独自制作の簡易コーデックでも依然としてわずかなノイズや音色歪みが存在
- KyutaiのMimiなど最新のニューラルネットオーディオコーデックは、GANベースの損失関数、RVQ dropoutなどの革新的な適用で品質を最大化
- GAN discriminatorで本物/偽物音声を識別しながら学習
- 複数RVQレベルでランダムに一部レベルのみを使用(ドロップアウト)することで、どの圧縮レベルでも品質を維持
Mimiコーデックの実際のLLM性能変化
- Mimiは24kHzサンプリングレート、12.5fpsなど、より積極的なダウンサンプルと効率的な圧縮を実現
- 同一のLibri-Light 10k時間データをMimiでトークナイズすると、保存容量がおよそ1/2に減少し、学習効率と品質が改善
- モデルが歌、詩など意味ベースの音声生成で、より高いテキスト一貫性を示す
意味トークン(Semantic Token)概念導入
- Mimiの最上位レベルはWavLMなど音声用BERTから抽出された意味トークン
- 意味トークンは音声の内容を担当し、下位RVQトークンは音色・声質などの音響情報を担当
- 意味トークンを固定した後、残りのトークンだけをLLMが再生成すると、同じ言葉を別の声で話す結果が得られる
意味–音響品質トレードオフ
- RVQレベルを下げるほど意味トークンの比重が高まり、意味一致率が増加し、LLMの詩的文生成能力が向上
- 実際に、'Librivox'の案内メッセージなど、学習データの一部をそのまま暗記するレベルに到達
- 意味重視 vs. 音質重視の損失関数重みにより、さまざまな用途が可能(Moshiは意味損失を100x重視)
最新音声LLMモデルおよび研究動向
- ここ数年で進展した結果、KyutaiのMoshi、SesameのCSM、Alibaba Qwen3-Omniなどは音声ネイティブLLM研究を牽引
- ほとんどのモデルは依然としてテキストストリーム同時アプローチに依存し、文脈推論などは主にテキストで行われる
- テキストと音声トークンを混在・相互利用したり、**連続潜在空間生成(ディフュージョン、コンシステンシーモデル)**などの代替研究も活発
結論と展望
- ニューラルオーディオコーデックは音声LLMの中核インフラとして、意味と音響情報をバランスよくトークナイズすることで音声生成品質を大きく改善
- なおテキストLLMと比較してreasoning・音声理解力の観点でモダリティギャップが存在
- Kyutai Moshiなどは初のエンドツーエンドVoice AI試行など、さまざまな革新を進行中であり、今後も音声MLの発展が期待される
参考論文と追加読書
- WaveNet(2016)、SampleRNN(2016)、MelGAN(2019)、HiFi-GAN(2020)など音声生成モデルの進化と主要概念の紹介
- Neural Discrete Representation Learning、SoundStream、EnCodec、WavLM、MiMo-Audioなどコーデック・モデル適用研究の紹介
- 連続音声生成およびDiffusion/Consistencyモデルの適用可能性の提示
最新音声ベースLLM(2025年時点)例
- Moshi(Kyutai)
- CSM(Sesame)
- Qwen3-Omni(Alibaba)
- MiMo-Audio(Xiaomi)
- LFM2-Audio(Liquid AI)
1件のコメント
Hacker News のコメント
高い音声トーンで「低い声で話していますか、それとも高い声で話していますか?」とLLMに聞くと、正しく区別できない現象があることについて述べている。これはLLMの限界なのか、安全性の過適合によるものなのか疑問を示し、ChatGPT Voiceモードには音楽生成のブロック、アクセント(たとえばインド英語の訛りを模倣しないこと)、人種・偏見推定の抑制など多くの保護機構が入っていることを言及しており、このような特徴がモデルからまるごと除去されている可能性もあると考えている
投稿者だと明かしつつ、この現象は安全面の問題よりむしろモデルの能力上の限界だと考えている。音声学習はテキスト学習よりも依然難しく、汎化がうまくいかない。これを解決するために音声モデルではテキストと音声情報を統合する方式が多く使われる(たとえばテキストと音声トークンを入力・出力ともに扱う単一モデル)。音声トークンは最終的に一種の統合型音声→文字変換器になる。Moshiで働く同僚の経験も同じで、他モデルも似ている。合成データの影響もあると見ており、TTSで生成したデータでファインチューニングするとピッチ情報がないため、モデルがそれを無視する方向に学習してしまうと強調している
「アクセント合わせ(相手がインド英語の訛りならLLMもその訛りを返さないこと)」について、なぜうまくいかないのかを本気で疑問視し、似た訛りに合わせると相互理解が大幅に向上した経験を共有している。訛り変換ができる人ができない人に合わせて変える方が有利だった場面が多かったという。自分もインド英語の訛りを使えたなら、アウトソーシング先のカスタマーサポートとやり取りする際に本当に役立っただろうと述べる
LLMが人種に応じて反応が変わった経験があるか質問している。彼らの訓練データの大半がテキスト対話なら、そのような偏見を学習する根拠が少ないのに意外だと述べる
Qwen3 omni transcriberは、音色と感情を非常にうまく説明できる点を共有している
単に保護機構のせいではなく、実際に音の高さそのものを理解できていないように見えると考えている。ChatGPTの高度な音声モードでハミングを識別してほしいと頼んでも、ずっと「ベートーヴェン5番」とだけ答え続けた。自分のハミングを「ダ-ダ-ダ-ダ〜」のようにトークナイズしているのではないかと推測している
音声分野ではlong range contextがそれほど重要ではないため、linear-space、constant-timeなモデル(RWKV、S4など)の方が合う可能性があると疑問を投げかけている。トランスフォーマーは低周波・低頻度で並列実行されるので、線形モデルが1秒ごとに要約トークン(テキスト+感情などを含む)を1個渡してフィードバックを得る構造を想像するとよいだろう。こうして2つのモデルを並列に訓練すれば、要約トークンの意味は事前定義されず、学習過程で生成される。これは純粋に音素ベースのe2e方式で、テキスト翻訳はない。意味のない単語や情報量の少ない部分は、より小さいトークン表現で圧縮できる。論理やコードの面ではテキストLLMにまだ及ばないが、人間も自然言語会話でアルゴリズムを細かく説明するのは難しいほうだ
線形モデル自体はよく知らないが、この階層的(hierarchical)モデリングは音声研究でよく見られるアイデアだと説明している。たとえばOpenAIのJukebox(2020)は3段階の音声コーデックで分割し、言語モデルは最も粗いレベルで次を予測し、後で微細な段階まで復元すると述べる。最近のMiMo-audioは4つのタイムステップをまとめて1パッチとして予測する。参考資料としてOpenAI Jukebox論文とMiMo-Audio技術報告書のリンクを共有している
Cartesiaは音声向け定数時間モデルを開発中であることをウェブサイトとともに示している
「これを必ず論文にして!」という応援も送っている
一般的な音声コーデック(JPEG、MP3など)を使わないのかという質問に対し、MP3は各フレームが独立して数十ミリ秒の音声を完全に再現でき、128kbpsなら418バイトで26msの圧縮率、元より10〜11倍以上小さくなり不要情報が除去されると説明している。コンバーターを使うならフレームをトークンとして使えないか想像している
JPEGをディープラーニングの入力値として直接使う論文の要約を共有している。DCT係数でCNNを学習させると、ピクセルを復元して再変換する工程を省ける。ResNet-50にも適用したところ学習速度が最大1.77倍向上し、精度も上がった。該当論文リンクを提示し、MP3も良いアイデアだろうという見方をしている
投稿者だと明かし、そうしない理由の最大要因は圧縮率の差だと説明している。初期のニューラル音声コーデックSoundStreamは3kbpsでもまずまずの音質を実現する一方、MP3は128kbps程度である。SoundStreamはGoogle Meetの音声圧縮向けに開発されており、現在のニューラルコーデックはさらに効率的だ。MP3の現代的代替であるOpusは12kbpsも可能だが、やはりニューラル音声コーデックほど効率的ではない。伝統的コーデックはCPU負荷が小さいという利点がある
400バイトMP3フレームをLLM用埋め込みに変換するアダプターを学習させることは可能だが、ニューラルネットワークへ入力される情報は消化しやすい構造でなければならない。ネットワークは冗長性の高い(トークン化されたテキストなど)データを好み、高圧縮データ(GZIPなど)は好まない傾向がある。結局、簡単に試してみることはできるが、成功するかは確実ではない。ときどき妙に上手くいくこともあると述べている
TFAのアプローチは32次元空間にエンコードしており、これは心理音響ベースの圧縮方式をはるかに上回る水準だという。さらに、認識がほぼ不可能な情報まで除去することは、音声合成など新規生成を目的とする場合には大きな意味がないとみている
人間は周波数成分に基づいて音を認識する。内耳には、さまざまな共振周波数を持つフィルタバンク(毛細胞長ごとの振動数)があり、音声知覚はフォルマントに基づいて音声生成時にどの調音運動が起きたかを判断する。MP3フレームをトークン化すると、周波数情報が量子化・ハフマン符号化・フレーム構造のためブラックボックス化される。この構造であってもテキスト予測は可能だろうが、入力が重要情報を隠すほど難易度が上がる。フォルマント情報へ直接アクセスできなければ一般化も難しく、LLMが特定スピーカーだけで訓練されている場合、子ども声や合成音声までどこまで認識できるか疑問だ
視覚的に最も見やすい説明だったと褒め、筆者自身もVQ-VAEでレンダーテキストのトークナイジングに挑んだ経験を共有している。10ptフォントとPDFソースで、完成したテキスト画像を生成する拡散モデルを、ドキュメントタイプ・言語まで含む潜在表現(latent representation)を学習する形で試みた。多くを学び、この投稿が美しく説明されていることに感嘆している
「なぜ音声そのものをトークナイズしてLLMを作らず、常に文字起こしテキストに依存するのか?」という問いを共有し、利用可能な音声データが膨大である点を強調している
投稿がまさにその問い(音声連続信号を離散トークンに変換する手法)に対するものであると案内している。音声ウィンドウ1セルが10〜100msであるため、その情報を1つのトークンに収めるのは難しい。残差ベクトル量子化は一つのタイムスライス(ウィンドウ)を複数辞書で繰り返し量子化して洗練する方式である。投稿の後半では、Mimi音声コーデックでLLMを訓練したサンプルも見られると説明
テキストデータは整備され標準化されたものがとても多い一方、音声は言語・方言・訛り・表情・ジェスチャー情報まで考慮しなければならず複雑だ。音声を文字起こしすれば、こうした雑多な情報は捨てられ、言語的意味だけを残したクリーンなトークン集合が作れるため、効率が高く多言語マッピングにも強い
音声トークンベースの訓練はコストがさらに高いが、いずれ主流になると予測している。YouTube講義の文字起こしで訓練することと、実際の音源で訓練することでは、効率も結果も明確に違うだろうと見ている
音声トークナイズはテキストより最小で4倍以上トークン数が多いと言う。まず効率の問題があり、純粋に音声だけでLLMを学習するにはデータが十分かという問題も残る
音声用トランスフォーマーの革新的な進歩はまだ来ていないと考えるが、音声ファーストモデルは理論的にはるかに優れていると予想している
Kyutaiという企業やプロジェクトを知らなかったが、自分が進めているプロジェクトに本当に合いそうだとして感謝している
非常に魅力的な取り組みだと感嘆している。むしろ音声自体はテキストよりはるかに扱うのが難しいが、LLMを音声に直接合わせる際の鍵は、最終的に最も効率的な音声コーデックを見つけることにある点が非常に面白い。いずれLLMとの相性がよい代表的なボイスコーデックが、フーリエ変換ではなく、声帯・舌・喉・口などの物理パラメータを基にした表現として現れるのではないかと想像する。人間の解剖学はほとんど変わらないため、このアプローチが統計的・標準的な形で定着する日も来るかもしれない。こうしたアプローチはformant speech encoding(フォルマント音声符号化)と呼ばれ、もともと音声合成分野で研究してきた
著者だと明かし、励ましてくれたことに感謝を最初に述べている。物理ベース(声帯や舌などのパラメータ)コーデックは、現代MLの流れには合わないと考える。今のMLは、ドメイン専門知識を事前に最小限しか入れず、できる限り多くの情報をモデル(トランスフォーマー)に任せる方向にある。制約が増えるほど表現できる音の幅は狭まり、品質上限に達する。一方で、モデルに制約を与えると本当に効率的で興味深い研究も出てくる。たとえばDDSP論文はシンセサイザーをMLで制御して楽器音を合成する。DDSPで Speech もできるだろう。もちろん音質は下がるが、パラメータがずっと少なくて済む。KokoroTTSのように子音と母音から直接音声を合成するTiny TTSもこの方式で、作動パラメータは非常に少ない。DDSP論文リンク、KokoroTTSプロジェクトリンク
このような物理ベースの音声生成の試みは以前から多く、口腔構造や気流まで再現して本当に話すようにしようとした実験があったが、この方式は『話すこと』を『書くこと』から派生させるものと誤解する誤りが起きやすい
音声符号化・合成では、source-filterモデル(音声生成と声道→フィルターパラメータ化)が本来の方式だと説明している。この方式はFFTの再発見以前から存在するとても古い発想である
100k時間で訓練した量が十分か気になっており、LLMの観点ではそれほど多くないため、"Bitter Lesson"(データとコンピューティングが最も重要であるというAIの教訓)を思い出させると述べている
この投稿は本当に整理がよく、役立つためチームに共有したいと述べている。最近、自社のAI製品に音声・ボイスを導入し始めていて、非常に実践的な参考資料になっている