- Chatterbox は Resemble AI が公開した 最新のオープンソース TTS(音声合成) モデル
- 競合の ElevenLabs との比較評価で 継続的に高い選好結果 を示す
- 感情の誇張制御 など独自機能を搭載し、多様な音声表現が可能
- 5億パラメータの Llama バックボーンと50万時間の 精選データ で学習
- すべての生成音声に Perth ウォーターマーキング を内蔵し、無断利用や改ざん防止を支援
Chatterbox TTS の紹介と重要性
- Chatterbox は Resemble AI が開発した 本番環境グレードのオープンソース TTS(テキスト読み上げ) モデル
- MIT ライセンスを採用しており自由に活用可能で、クローズドソースの商用モデル(例: ElevenLabs)と比較しても 優れた品質 を実証した結果が公開されている
- 動画、ミーム、ゲーム、AI エージェントなど コンテンツ制作全般に適用可能 で、オープンソース TTS として初めて 感情の誇張制御 機能を提供
- Hugging Face Gradio アプリや独自 API でデモと実運用が可能で、大規模用途や高精度が必要な場合は 商用 API(200ms 未満の超低遅延) も提供
主な特徴
- 最先端のゼロショット TTS: 追加データなしでも多様な話者スタイルを表現可能
- 0.5B Llama バックボーン: 大規模言語モデルの構造を音声合成に応用
- 感情の誇張/強度調整: 各話者ごとの個性や感情の強さを細かく制御できる機能を提供
- Alignment-informed inference: 音素と音声のアラインメント情報を反映し、非常に安定した生成品質 を実現
- 0.5M 時間の精選データ: 大規模かつ高品質な音声データセットで学習
- 内蔵ウォーターマーキング: Resemble AI の Perth(Perceptual Threshold)ウォーターマーキング により、生成物の追跡と無断利用防止に対応
- 音声変換スクリプト: 手軽に使える voice conversion 機能を内蔵
- 性能検証: ElevenLabs を上回る評価 を確認済み
使用のヒント
- 一般的な TTS/音声エージェント: デフォルト値(Exaggeration=0.5, cfg_weight=0.5)で多くの場面において バランスの取れた品質 を実現
- 話者スタイルが速めの場合は cfg_weight を 0.3 付近に 調整するとより自然な速度 になる
- 感情的/ドラマチックな音声合成: Exaggeration を 0.7 以上に上げ、cfg_weight を下げる と劇的な発話効果が強まる
- 感情強度(exaggeration)が高いほど発話速度は速くなり、cfg_weight を下げると よりゆっくり明瞭な発話 に調整可能
対応言語
参考/依存オープンソース
- Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3, S3Tokenizer など、さまざまな最新の音声・言語モデル技術を反映
Perth ウォーターマーキング内蔵
- Perth(Perceptual Threshold)ウォーターマーキング: すべての生成音声に、音質劣化のないニューラルウォーターマークを埋め込む
- ウォーターマークは MP3 圧縮、音声編集、加工 後も維持される
- ほぼ 100% の精度で自動検出が可能で、原本追跡・改ざん防止と責任ある AI 利用を支援
ウォーターマーク抽出例
- 別途スクリプトで当該ウォーターマークの有無を検証可能
- Python パッケージ perth, librosa を使い、音声から ウォーターマーク値(0 または 1)を抽出 可能
コミュニティ
- 公式 Discord コミュニティ を運営しており、誰でも参加・協業可能
免責事項
- 本モデルは悪意ある用途での使用を禁止しており、プロンプトにはインターネット上で公開されたデータのみを使用
1件のコメント
Hacker Newsの意見
imperceptible neural watermarks なので、MP3 圧縮、音声編集、各種改変にも耐え、100%に近い検出精度を持つと宣伝している
ただ、
tts.pyでapply_watermark関数の呼び出しをコメントアウトするだけで、ウォーターマークの挿入を簡単に無効化できるのではないかと疑問に思うこうしたウォーターマークなら、本来はモデル自体に埋め込んで簡単に除去できないようにするのが目的だと思っていた
オープンソースのモデルにウォーターマークを別の後処理段階として追加するなら、そもそもなぜわざわざウォーターマークを入れるのか疑問だ
オリジナルの Stable Diffusion にも content filter があったように
また、学習データへの混入防止も意図している可能性がある
--no-watermarkフラグまで入っている結局のところ、これを一つの「機能」として使い、より大きな製品に組み込むユーザー向けに入れたのだと思う
TTS 市場のリーダーはすでにはっきりしており、Resemble や PlayHT などは、開発者向けにウェイトとソースコードを公開してこそ、多少なりとも市場シェアを取れる
ウォーターマーキングは、メディアの悪用批判に対応するための CYA 的性格がある
こうした対策がなければ、メディアや反 AI 陣営(404Media など)が悪用問題を持ち出すだろう
ソースとウェイトを公開し、別途 API / ファインチューニングのオプションを提供する形が正しい方向だ
参考までに 404Media の記事
デモ音声があまりにも選び抜かれた例でないなら、本当に良いリリースだと思う
毎回言っていることだが、実際には音声 AI は TTS の品質よりも音声認識(文字起こし)のほうがボトルネックだと、実験のたびに感じる
最近何か変わっていない限り、依然としてそこが限界点だ
まだ LLM に複数バージョンの文字起こしや confidence level を渡したことはないが、渡せばうまく使ってくれそうだと期待している
Pulp Fiction から取った文なのも面白い
これまでのデモはいつも無難で退屈なものばかりで飽きていた
インディー TTS コミュニティでは Navy Seals copypasta がよく使われるが、Resemble のようなサービス会社がこういう文を入れてきたのは新鮮だ
Copypasta Wiki, Navy Seal copypasta の例
自分のオーストラリア英語アクセントを入れると、かなりイギリス寄り、それもとても柔らかい RP 発音になった
とても自然に聞こえるが、自分のアクセントを再現している感じではない
実用では明瞭で自然な音声が重要なことが多いので、そういう用途には完璧に合っている
「open」モデルの中でより優れたものとしては
実際には Seed-VC だけが学習 / ファインチューニングコードを持っているが、いずれも Chatterbox よりゼロショット性能は高い
特に ByteDance の MegaTTS3 は、ElevenLabs を除けば追いつける企業がいないほどだ
ByteDance は資金、人員、データのすべてで圧倒している
もしファインチューニングなしでゼロショット音声再現を目的とするなら、こうしたモデルのほうが良い選択だ
デプロイ可能なモデルへのリンクも添えられている
まだストリーミング対応は作業中とのこと
ただ、思った以上によくあるアクセントでも、別のアクセント(例: スコットランドの録音なのにオーストラリアのアクセント)が混ざる
ヨークシャー地方のアクセントも取り違える
そのため、デフォルト状態ではかなり高性能な民生用ハードウェアが必要になる
ただし今後最適化される余地は大きいと思う
issue リンク
モデルに十分な価値があれば、誰かがもっと少ない VRAM で動かす方法を見つけるだろう
実際、古い Nvidia 2060 で動かしてみたところ、VRAM のピークは約 5GB だった
無料で動かせるとしても、実際のコストのせいでセルフホスティングの意味がなくなるかもしれない
高価な GPU が必要なのか、それとも 12 年前のノート PC でも動くのか気になっていた
遭遇した問題を列挙すると:
pip install chatterbox-ttsのバージョンは CPU only モードでバグがある他人の Python プロジェクトを動かすたびにこの手の苦労を繰り返すのでうんざりする気持ちだ
SparkTTS はもう少しパラメータを提供しており、GitHub のコードを見るとより精密な感情制御の可能性もある
自分の場合、prosody や tonality の指示をテキスト内で強めに与えることで、一部のモデルでは狙ったコンセプトに近づけた経験がある
それでも、Elevenlabs の直感的な感情デザインに比べればはるかに面倒な作業だ
それでも、非常に短いサンプルでここまで寄せられるのはかなり驚きだ
また、one-shot サンプル wave にノイズが混ざっていると、Chatterbox はときどき最後に正体不明の音まで出力してくれるおまけ付きだ
特にダンテの『神曲』のようなものを読ませると、「地獄の音」体験になる
(Amazon がその事実を明示するかどうかだけが疑問だ)
audiobook 変換ツール audiblez
1 年たった今なら、間違いなくさらに良くなっていると思う