Hibiki - 高品質な同時音声-to-音声翻訳モデル

xguru · 2025-02-11T09:53:55+09:00

高忠実度（High Fidelity）のリアルタイム・ストリーミング音声翻訳（Speech-to-Speech Translation）モデル一般的なオフライン翻訳とは異なり、ユーザーが話している間に「リアルタイムで翻訳された音声を生成」するテキスト翻訳もあわせて提供し、元の音声のスタイルを維持する音声変換機能も含むアーキテクチャ「Decoder-onlyモデル」で、同時音声翻訳のために設計されている Moshi のマルチストリーム（multistream）アーキテクチャを活用し、元音声と翻訳音声を同時にモデリングする 1秒あたり12.5Hzの一定フレームレートで連続的な出力ストリームを生成し、タイムスタンプ付きのテキスト翻訳も提供する学習方法元音声・翻訳音声・テキストが整列したデータが必要だが、実際にはそのようなデータは多くないそのため合成データ（synthetic data）を生成して学習を進める MADLAD 機械翻訳システムを活用し、元テキストと翻訳テキストを弱教師あり学習の方式で整列する翻訳が元文から予測可能になる時点でのみ単語が現れるように整列ルールを適用する方法 1: 無音挿入（silence insertion）方法 2: 整列を反映した音声合成（alignment-aware TTS）推論（Inference） Hibiki はリアルタイムで元音声をエンコードし、翻訳音声を生成する複雑な推論方式なしに温度サンプリング（temperature sampling）方式を使用し、バッチ処理と互換性がある Classifier-Free Guidance 係数を調整して音声の類似度を制御できる係数が高いほど元音声に近い音声を生成するが、高すぎると翻訳品質が低下する可能性がある現在の Hibiki はフランス語 → 英語翻訳のみ対応している軽量モデルの Hibiki-M はスマートフォンでも実行可能モデルの実行方法 PyTorch、Rust、MLX（macOS）、MLX-Swift（iOS）で実行可能 Hibiki のコードは Moshi プロジェクトとほぼ同一で、実装は kyutai-labs/moshi リポジトリで確認できる現在はフランス語 → 英語（FR → EN）翻訳に対応する2種類のモデルのみ提供されている Hibiki 2B: より深い Transformer 構造、ストリームあたり 16 RVQ Hibiki 1B: 軽量版、ストリームあたり 8 RVQ、オンデバイス実行可能

(github.com/kyutai-labs)

13 ポイント投稿者 xguru 2025-02-11 | 2件のコメント | WhatsAppで共有

高忠実度（High Fidelity）のリアルタイム・ストリーミング音声翻訳（Speech-to-Speech Translation）モデル
一般的なオフライン翻訳とは異なり、ユーザーが話している間に「リアルタイムで翻訳された音声を生成」する
テキスト翻訳もあわせて提供し、元の音声のスタイルを維持する音声変換機能も含む

アーキテクチャ

「Decoder-onlyモデル」で、同時音声翻訳のために設計されている
Moshi の マルチストリーム（multistream）アーキテクチャを活用し、元音声と翻訳音声を同時にモデリングする
1秒あたり12.5Hzの一定フレームレートで 連続的な出力ストリーム を生成し、タイムスタンプ付きのテキスト翻訳も提供する

学習方法

元音声・翻訳音声・テキストが整列したデータが必要だが、実際にはそのようなデータは多くない
そのため 合成データ（synthetic data）を生成 して学習を進める
MADLAD 機械翻訳システムを活用し、元テキストと翻訳テキストを 弱教師あり学習の方式で整列 する
翻訳が元文から予測可能になる時点でのみ単語が現れるように 整列ルールを適用 する
- 方法 1: 無音挿入（silence insertion）
- 方法 2: 整列を反映した音声合成（alignment-aware TTS）

推論（Inference）

Hibiki はリアルタイムで元音声をエンコードし、翻訳音声を生成する
複雑な推論方式なしに 温度サンプリング（temperature sampling）方式 を使用し、バッチ処理と互換性がある
Classifier-Free Guidance 係数を調整して音声の類似度を制御できる
- 係数が高いほど元音声に近い音声を生成するが、高すぎると翻訳品質が低下する可能性がある
現在の Hibiki は フランス語 → 英語翻訳のみ対応 している
軽量モデルの Hibiki-M はスマートフォンでも実行可能

モデルの実行方法

PyTorch、Rust、MLX（macOS）、MLX-Swift（iOS）で実行可能
Hibiki のコードは Moshi プロジェクトとほぼ同一 で、実装は kyutai-labs/moshi リポジトリで確認できる
現在は フランス語 → 英語（FR → EN）翻訳 に対応する2種類のモデルのみ提供されている
- Hibiki 2B: より深い Transformer 構造、ストリームあたり 16 RVQ
- Hibiki 1B: 軽量版、ストリームあたり 8 RVQ、オンデバイス実行可能

2件のコメント

sftblw 2025-02-11

Rustデプロイには candle を使っているようですね。(Cargo.toml)

dbs0829 2025-02-11

語順がまったく異なる言語同士だと、リアルタイム翻訳は少し難しそうですが、論文を一度見てみたいですね。