VoxCPM2 - 実際の音声に近い音声クローンが可能な多言語音声合成オープンソース
(github.com/OpenBMB)- 韓国語を含む30言語をサポートし、言語タグを指定せずテキストを入れるだけですぐに合成可能
- 声優サンプルがなくても
(Young female voice, warm and gentle)のような 自然言語の説明(性別・年齢・トーン・感情・速度)をテキストの前に付けるだけで、望む音声キャラクターをすぐ生成 - 離散トークン化を経ずに 連続的な音声表現を直接生成する拡散オートレグレッシブベースのTTSシステムで、20億パラメータモデルが200万時間以上の多言語データで学習
- 短い参照クリップから声質を複製しつつ、感情・速度・スタイルを個別に調整できる Controllable Voice Cloning をサポート
(slightly faster, cheerful tone) - 参照音声 + 台本まで一緒に入れると、声質・リズム・感情・スタイルを すべて再現する Ultimate Cloning モードを搭載し、別途後処理は不要
- 16kHzの参照入力でも 48kHzのスタジオ級出力を AudioVAE V2 の非対称エンコード/デコードで直接生成。外部アップサンプラーや後処理パイプラインの構築は不要
- RTX 4090基準でRTF(Real-Time Factor)は約0.3、Nano-vLLMで高速化すると約0.13でリアルタイムストリーミングに利用可能
- VRAM 約8GBで動作可能なため、RTX 3070〜4060クラスのGPUでも運用可能
- Seed-TTS-evalでオープンソースモデルの中でも 話者類似度(SIM)は最上位クラス、30言語の内部ASRベンチマーク平均誤り率は 1.68%
- 5〜10分の音声があればLoRAファインチューニングで特定話者・ドメイン適応が可能で、
lora_ft_webui.pyによる WebUIベースの学習・推論もサポート - MiniCPM-4バックボーンベースで、LocEnc → TSLM → RALM → LocDiT の4段階パイプラインで構成
- GGML/GGUF CPU推論(VoxCPM.cpp)、ONNX変換、Apple Neural Engineバックエンド、Rust再実装、ComfyUIノードなど、GPUなし環境でも推論可能なオプションが多数
- Apache-2.0ライセンスで 商用利用の制限なし、Python実装
2件のコメント
3060でも試せました。クオリティは素晴らしかったです。
ああ、OpenBMBってどこかで聞いたことがあると思ったら、MiniCPM-oモデルを作ったところだったんですね。
MiniCPM-oモデルはGPT 4oのようなオムニモデルで、性能がかなり良かったです。
MiniCPM-o デモ動画を一度チェックしてみてください。
かなり満足度の高かったモデルなので、新しい音声クローンモデルにも期待できますね。