VoxCPM2 - 実際の音声に近い音声クローンが可能な多言語音声合成オープンソース

(github.com/OpenBMB)

43 ポイント投稿者 xguru 15 일 전 | 2件のコメント | WhatsAppで共有

韓国語を含む30言語をサポートし、言語タグを指定せずテキストを入れるだけですぐに合成可能
声優サンプルがなくても (Young female voice, warm and gentle) のような 自然言語の説明（性別・年齢・トーン・感情・速度）をテキストの前に付けるだけで、望む音声キャラクターをすぐ生成
離散トークン化を経ずに 連続的な音声表現を直接生成する拡散オートレグレッシブベースのTTSシステムで、20億パラメータモデルが200万時間以上の多言語データで学習
短い参照クリップから声質を複製しつつ、感情・速度・スタイルを個別に調整できる Controllable Voice Cloning をサポート (slightly faster, cheerful tone)
参照音声 + 台本まで一緒に入れると、声質・リズム・感情・スタイルを すべて再現する Ultimate Cloning モードを搭載し、別途後処理は不要
16kHzの参照入力でも 48kHzのスタジオ級出力を AudioVAE V2 の非対称エンコード/デコードで直接生成。外部アップサンプラーや後処理パイプラインの構築は不要
RTX 4090基準でRTF(Real-Time Factor)は約0.3、Nano-vLLMで高速化すると約0.13でリアルタイムストリーミングに利用可能
VRAM 約8GBで動作可能なため、RTX 3070〜4060クラスのGPUでも運用可能
Seed-TTS-evalでオープンソースモデルの中でも 話者類似度(SIM)は最上位クラス、30言語の内部ASRベンチマーク平均誤り率は 1.68%
5〜10分の音声があればLoRAファインチューニングで特定話者・ドメイン適応が可能で、lora_ft_webui.py による WebUIベースの学習・推論もサポート
MiniCPM-4バックボーンベースで、LocEnc → TSLM → RALM → LocDiT の4段階パイプラインで構成
GGML/GGUF CPU推論(VoxCPM.cpp)、ONNX変換、Apple Neural Engineバックエンド、Rust再実装、ComfyUIノードなど、GPUなし環境でも推論可能なオプションが多数
Apache-2.0ライセンスで 商用利用の制限なし、Python実装

2件のコメント

cr543l 14 일 전

3060でも試せました。クオリティは素晴らしかったです。

crawler 14 일 전

ああ、OpenBMBってどこかで聞いたことがあると思ったら、MiniCPM-oモデルを作ったところだったんですね。
MiniCPM-oモデルはGPT 4oのようなオムニモデルで、性能がかなり良かったです。

MiniCPM-o デモ動画を一度チェックしてみてください。

かなり満足度の高かったモデルなので、新しい音声クローンモデルにも期待できますね。

VoxCPM2 - 実際の音声に近い音声クローンが可能な多言語音声合成オープンソース

関連記事

2件のコメント