43 ポイント 投稿者 xguru 15 일 전 | 2件のコメント | WhatsAppで共有
  • 韓国語を含む30言語をサポートし、言語タグを指定せずテキストを入れるだけですぐに合成可能
  • 声優サンプルがなくても (Young female voice, warm and gentle) のような 自然言語の説明(性別・年齢・トーン・感情・速度)をテキストの前に付けるだけで、望む音声キャラクターをすぐ生成
  • 離散トークン化を経ずに 連続的な音声表現を直接生成する拡散オートレグレッシブベースのTTSシステムで、20億パラメータモデルが200万時間以上の多言語データで学習
  • 短い参照クリップから声質を複製しつつ、感情・速度・スタイルを個別に調整できる Controllable Voice Cloning をサポート (slightly faster, cheerful tone)
  • 参照音声 + 台本まで一緒に入れると、声質・リズム・感情・スタイルを すべて再現する Ultimate Cloning モードを搭載し、別途後処理は不要
  • 16kHzの参照入力でも 48kHzのスタジオ級出力を AudioVAE V2 の非対称エンコード/デコードで直接生成。外部アップサンプラーや後処理パイプラインの構築は不要
  • RTX 4090基準でRTF(Real-Time Factor)は約0.3、Nano-vLLMで高速化すると約0.13でリアルタイムストリーミングに利用可能
  • VRAM 約8GBで動作可能なため、RTX 3070〜4060クラスのGPUでも運用可能
  • Seed-TTS-evalでオープンソースモデルの中でも 話者類似度(SIM)は最上位クラス、30言語の内部ASRベンチマーク平均誤り率は 1.68%
  • 5〜10分の音声があればLoRAファインチューニングで特定話者・ドメイン適応が可能で、lora_ft_webui.py による WebUIベースの学習・推論もサポート
  • MiniCPM-4バックボーンベースで、LocEnc → TSLM → RALM → LocDiT の4段階パイプラインで構成
  • GGML/GGUF CPU推論(VoxCPM.cpp)、ONNX変換、Apple Neural Engineバックエンド、Rust再実装、ComfyUIノードなど、GPUなし環境でも推論可能なオプションが多数
  • Apache-2.0ライセンスで 商用利用の制限なし、Python実装

2件のコメント

 
cr543l 14 일 전

3060でも試せました。クオリティは素晴らしかったです。

 
crawler 14 일 전

ああ、OpenBMBってどこかで聞いたことがあると思ったら、MiniCPM-oモデルを作ったところだったんですね。
MiniCPM-oモデルはGPT 4oのようなオムニモデルで、性能がかなり良かったです。

MiniCPM-o デモ動画を一度チェックしてみてください。

かなり満足度の高かったモデルなので、新しい音声クローンモデルにも期待できますね。