3 ポイント 投稿者 GN⁺ 2025-06-12 | 1件のコメント | WhatsAppで共有
  • Chatterbox は Resemble AI が公開した 最新のオープンソース TTS(音声合成) モデル
  • 競合の ElevenLabs との比較評価で 継続的に高い選好結果 を示す
  • 感情の誇張制御 など独自機能を搭載し、多様な音声表現が可能
  • 5億パラメータの Llama バックボーンと50万時間の 精選データ で学習
  • すべての生成音声に Perth ウォーターマーキング を内蔵し、無断利用や改ざん防止を支援

Chatterbox TTS の紹介と重要性

  • Chatterbox は Resemble AI が開発した 本番環境グレードのオープンソース TTS(テキスト読み上げ) モデル
  • MIT ライセンスを採用しており自由に活用可能で、クローズドソースの商用モデル(例: ElevenLabs)と比較しても 優れた品質 を実証した結果が公開されている
  • 動画、ミーム、ゲーム、AI エージェントなど コンテンツ制作全般に適用可能 で、オープンソース TTS として初めて 感情の誇張制御 機能を提供
  • Hugging Face Gradio アプリや独自 API でデモと実運用が可能で、大規模用途や高精度が必要な場合は 商用 API(200ms 未満の超低遅延) も提供

主な特徴

  • 最先端のゼロショット TTS: 追加データなしでも多様な話者スタイルを表現可能
  • 0.5B Llama バックボーン: 大規模言語モデルの構造を音声合成に応用
  • 感情の誇張/強度調整: 各話者ごとの個性や感情の強さを細かく制御できる機能を提供
  • Alignment-informed inference: 音素と音声のアラインメント情報を反映し、非常に安定した生成品質 を実現
  • 0.5M 時間の精選データ: 大規模かつ高品質な音声データセットで学習
  • 内蔵ウォーターマーキング: Resemble AI の Perth(Perceptual Threshold)ウォーターマーキング により、生成物の追跡と無断利用防止に対応
  • 音声変換スクリプト: 手軽に使える voice conversion 機能を内蔵
  • 性能検証: ElevenLabs を上回る評価 を確認済み

使用のヒント

  • 一般的な TTS/音声エージェント: デフォルト値(Exaggeration=0.5, cfg_weight=0.5)で多くの場面において バランスの取れた品質 を実現
    • 話者スタイルが速めの場合は cfg_weight を 0.3 付近に 調整するとより自然な速度 になる
  • 感情的/ドラマチックな音声合成: Exaggeration を 0.7 以上に上げ、cfg_weight を下げる と劇的な発話効果が強まる
    • 感情強度(exaggeration)が高いほど発話速度は速くなり、cfg_weight を下げると よりゆっくり明瞭な発話 に調整可能

対応言語

  • 現在は 英語のみ対応

参考/依存オープンソース

  • Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3, S3Tokenizer など、さまざまな最新の音声・言語モデル技術を反映

Perth ウォーターマーキング内蔵

  • Perth(Perceptual Threshold)ウォーターマーキング: すべての生成音声に、音質劣化のないニューラルウォーターマークを埋め込む
  • ウォーターマークは MP3 圧縮、音声編集、加工 後も維持される
  • ほぼ 100% の精度で自動検出が可能で、原本追跡・改ざん防止と責任ある AI 利用を支援

ウォーターマーク抽出例

  • 別途スクリプトで当該ウォーターマークの有無を検証可能
  • Python パッケージ perth, librosa を使い、音声から ウォーターマーク値(0 または 1)を抽出 可能

コミュニティ

  • 公式 Discord コミュニティ を運営しており、誰でも参加・協業可能

免責事項

  • 本モデルは悪意ある用途での使用を禁止しており、プロンプトにはインターネット上で公開されたデータのみを使用

1件のコメント

 
GN⁺ 2025-06-12
Hacker Newsの意見
  • Resemble AI の Perth(Perceptual Threshold)ウォーターマークが、Chatterbox で生成されたすべての音声ファイルに含まれているという案内を見かけた
    imperceptible neural watermarks なので、MP3 圧縮、音声編集、各種改変にも耐え、100%に近い検出精度を持つと宣伝している
    ただ、tts.pyapply_watermark 関数の呼び出しをコメントアウトするだけで、ウォーターマークの挿入を簡単に無効化できるのではないかと疑問に思う
    こうしたウォーターマークなら、本来はモデル自体に埋め込んで簡単に除去できないようにするのが目的だと思っていた
    オープンソースのモデルにウォーターマークを別の後処理段階として追加するなら、そもそもなぜわざわざウォーターマークを入れるのか疑問だ
  • これは一種の CYA(Cover Your Ass、自己防衛)的なポーズではないかと推測
    オリジナルの Stable Diffusion にも content filter があったように
    また、学習データへの混入防止も意図している可能性がある
  • しかも parser に --no-watermark フラグまで入っている
    結局のところ、これを一つの「機能」として使い、より大きな製品に組み込むユーザー向けに入れたのだと思う
  • OpenAI、Google、ElevenLabs 以外の企業は、積極的にオープンソース化しなければ完全に存在感を失うだろう
    TTS 市場のリーダーはすでにはっきりしており、Resemble や PlayHT などは、開発者向けにウェイトとソースコードを公開してこそ、多少なりとも市場シェアを取れる
    ウォーターマーキングは、メディアの悪用批判に対応するための CYA 的性格がある
    こうした対策がなければ、メディアや反 AI 陣営(404Media など)が悪用問題を持ち出すだろう
    ソースとウェイトを公開し、別途 API / ファインチューニングのオプションを提供する形が正しい方向だ
    参考までに 404Media の記事
  • デモページはこちら
    デモ音声があまりにも選び抜かれた例でないなら、本当に良いリリースだと思う
    毎回言っていることだが、実際には音声 AI は TTS の品質よりも音声認識(文字起こし)のほうがボトルネックだと、実験のたびに感じる
    最近何か変わっていない限り、依然としてそこが限界点だ
  • 最近の体験では、LLM は文字起こしの誤りまでうまく読んで活用してくれるレベルにある
    まだ LLM に複数バージョンの文字起こしや confidence level を渡したことはないが、渡せばうまく使ってくれそうだと期待している
  • 実際に Speechmatics を使ってみたが、文字起こし品質はかなり実用的だった
  • Hugging Face のデモで実際に試すと、ページ上のデモほど感情表現は自然ではなく、選び抜かれたサンプルという印象もある
  • 合成データで文字起こしの問題を克服できないか気になる
  • デモに直接罵り言葉が入っているのは本当に良いと思った
    Pulp Fiction から取った文なのも面白い
    これまでのデモはいつも無難で退屈なものばかりで飽きていた
    インディー TTS コミュニティでは Navy Seals copypasta がよく使われるが、Resemble のようなサービス会社がこういう文を入れてきたのは新鮮だ
    Copypasta Wiki, Navy Seal copypasta の例
  • こちらで無料で試せる
  • 面白く使ってみたという感想
    自分のオーストラリア英語アクセントを入れると、かなりイギリス寄り、それもとても柔らかい RP 発音になった
    とても自然に聞こえるが、自分のアクセントを再現している感じではない
    実用では明瞭で自然な音声が重要なことが多いので、そういう用途には完璧に合っている
  • 残念ながら学習やファインチューニングのコードは公開されておらず、Flux や Stable Diffusion のような「完全に開かれた」レベルではない
    「open」モデルの中でより優れたものとしては
    • Zeroshot TTS: MaskGCT, MegaTTS3
    • Zeroshot VC: Seed-VC, MegaTTS3
      実際には Seed-VC だけが学習 / ファインチューニングコードを持っているが、いずれも Chatterbox よりゼロショット性能は高い
      特に ByteDance の MegaTTS3 は、ElevenLabs を除けば追いつける企業がいないほどだ
      ByteDance は資金、人員、データのすべてで圧倒している
      もしファインチューニングなしでゼロショット音声再現を目的とするなら、こうしたモデルのほうが良い選択だ
  • 本番環境向け TTS API デプロイ実装例もオープンソースで公開されている
    デプロイ可能なモデルへのリンクも添えられている
  • サンプル推論コード、音声クローンの例の案内
    まだストリーミング対応は作業中とのこと
  • 本当に一般的なアクセントには非常にうまく動くと思う
    ただ、思った以上によくあるアクセントでも、別のアクセント(例: スコットランドの録音なのにオーストラリアのアクセント)が混ざる
    ヨークシャー地方のアクセントも取り違える
  • スコットランドのアクセントを入れたら、自分のオーストラリア英語アクセントでさえイギリス式 RP に変身してしまった
  • これはモデルよりも、スコットランド系アクセントの特性のほうが問題だという意見
  • イギリス英語アクセントを演じる俳優のようだという感想
  • ハードウェア仕様についての質問。最低スペックで動くのか気になる
  • GitHub の issue ページによると、最適化はまだあまり進んでいない
    そのため、デフォルト状態ではかなり高性能な民生用ハードウェアが必要になる
    ただし今後最適化される余地は大きいと思う
    issue リンク
  • この issue によると 6〜7GB の VRAM が必要
    モデルに十分な価値があれば、誰かがもっと少ない VRAM で動かす方法を見つけるだろう
    実際、古い Nvidia 2060 で動かしてみたところ、VRAM のピークは約 5GB だった
  • こういう質問は決して些細ではなく、むしろ最高の質問だ
    無料で動かせるとしても、実際のコストのせいでセルフホスティングの意味がなくなるかもしれない
  • 自分も同じ疑問があって調べたことがある
    高価な GPU が必要なのか、それとも 12 年前のノート PC でも動くのか気になっていた
  • 古い CPU での動作経験を共有しようと思ったが、30 分以上インストールとエラーの繰り返しだった
    遭遇した問題を列挙すると:
    • Python 3.13 は未対応で、uv で 3.12 の仮想環境を作り直した
    • numpy 1.26.4 が認識されず、uv pip が pytorch リポジトリしか検索しなかった
    • pip install chatterbox-tts のバージョンは CPU only モードでバグがある
    • デフォルトの main バージョンは Debian で protobuf-compiler が必要
    • 不明な CMake エラーと、Python の dev ヘッダーがないという苦情
      他人の Python プロジェクトを動かすたびにこの手の苦労を繰り返すのでうんざりする気持ちだ
  • 感情表現の誇張は興味深かったが、Elevenlabs のようにテキスト説明だけで狙った声色を「彫刻」するように作れるサービスはまだ見つけていない
    SparkTTS はもう少しパラメータを提供しており、GitHub のコードを見るとより精密な感情制御の可能性もある
    自分の場合、prosody や tonality の指示をテキスト内で強めに与えることで、一部のモデルでは狙ったコンセプトに近づけた経験がある
    それでも、Elevenlabs の直感的な感情デザインに比べればはるかに面倒な作業だ
  • デモを自分の声の一部で直接テストした感想
    • 出力は自分の声の雰囲気をある程度なぞっていたが、ものすごく似ているわけではなかった
      それでも、非常に短いサンプルでここまで寄せられるのはかなり驚きだ
    • CFG / pace の値を少し上げるだけで、音声がすぐ聞き取れないレベルまで壊れる
    • 自分のアクセントはオーストラリア英語なのに、出力はイギリス英語だったりアメリカ英語だったりばらばらだった
    • 感情の誇張表現は面白かったが、どんな感情が出るかは毎回違っていた
  • こうした TTS モデルが本の朗読まで説得力を持ってこなせるのか、数段落も進めば音声の一貫性が崩れるのではないかと気になる
  • ほとんどの TTS システムは長文で品質が崩れるので、実際には段落ごとに区切って読み上げ、後でつなぎ直すほうがよい
    また、one-shot サンプル wave にノイズが混ざっていると、Chatterbox はときどき最後に正体不明の音まで出力してくれるおまけ付きだ
    特にダンテの『神曲』のようなものを読ませると、「地獄の音」体験になる
  • いつか品質が十分によくなれば、Audible には AI ナレーションのオーディオブックがあふれるようになるだろう
    (Amazon がその事実を明示するかどうかだけが疑問だ)
  • 実際に epub の本を 1 冊オーディオブックにしてみたが、このツールでかなり悪くない結果が得られた
    audiobook 変換ツール audiblez
  • この分野の企業にコンサルしているが、現時点の技術でも本の朗読にはまったく問題ないと断言できる
  • 1 年前、友人に Carl Rogers のセラピー・オーディオブックを遊び半分で Attenbrough 風に合成して聞かせたが、その時点ですでにかなり優れた品質だった
    1 年たった今なら、間違いなくさらに良くなっていると思う