- Qwen3-TTSは、音声クローン、音声デザイン、超高品質な人間らしい音声生成、自然言語ベースの制御をサポートする多言語音声生成モデルシリーズ
- 中国語、英語、日本語、韓国語など主要10言語とさまざまな方言をサポートし、1.7Bと0.6Bの2種類のモデルサイズを提供
- 独自開発のQwen3-TTS-Tokenizer-12Hzエンコーダーにより、音声信号を効率的に圧縮し、非言語情報と音響環境を完全に保持
- Dual-Trackストリーミング構造により、文字を1文字入力した後すぐに最初のオーディオパケットを出力し、97ms遅延のリアルタイム合成性能を達成
- オープンソース公開により、開発者や企業が高品質な音声生成技術を直接活用できる
Qwen3-TTS概要
- Qwen3-TTSはQwenが開発した高性能音声生成モデルシリーズで、音声デザイン・クローン・生成・制御機能を統合して提供
- 自然言語コマンドで声質、感情、イントネーションなどを制御可能
- Qwen APIおよびGitHub経由で利用可能
- Qwen3-TTS-Tokenizer-12Hzマルチコードブックエンコーダーを基盤として、高速・高忠実度の音声復元と効率的な圧縮を実現
- Dual-Track双方向ストリーミングにより、文字単位のリアルタイム音声出力をサポート
モデル構成
- モデル全体は1.7Bと0.6Bの2つのサイズで提供
- 1.7B: 最高性能と精密な制御機能を提供
- 0.6B: 性能と効率のバランス型
- 両モデルとも中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語をサポート
- 3秒の音声入力で高速音声クローンが可能で、ファインチューニング(FT)にも活用可能
主な技術的特徴
- 高性能な音声表現力
- Qwen3-TTS-Tokenizer-12Hzにより、音響信号の高次元意味モデリングと圧縮を実行
- 非言語情報や環境音を保持し、軽量なnon-DiT構造で高速復元をサポート
- エンドツーエンドのマルチコードブック構造
- 従来のLM+DiT方式における情報ボトルネックとエラー蓄積の問題を除去
- モデルの汎用性、生成効率、性能上限を向上
- 超低遅延ストリーミング合成
- Dual-Trackハイブリッド構造でストリーミング・非ストリーミングを同時サポート
- 文字を1文字入力後に最初のオーディオを出力し、97ms遅延を達成
- インテリジェントなテキスト理解と音声制御
- 自然言語コマンドベースで声質、感情、プロソディなど多次元属性を制御
- テキストの意味に応じてトーンとリズムを自動調整
モデル性能評価
- 音声デザイン: InstructTTS-EvalベンチマークでMiniMax-Voice-Designより高い指示追従性と表現力を達成
- 音声制御: 単一話者の多言語一般化でWER 2.34%、スタイル制御スコア**75.4%**を記録
- 10分連続合成でも中国語WER 2.36%、英語2.81%を維持
- 音声クローン: Seed-tts-evalでMiniMax、SeedTTSより安定
- 10言語平均でWER 1.835%、話者類似度 0.789を記録し、CosyVoice3を上回る性能
Tokenizer性能
- LibriSpeech test-cleanセット基準でSOTAを達成
- PESQ: 広帯域 3.21、狭帯域 3.68
- STOI: 0.96、UTMOS: 4.16
- 話者類似度 0.95でほぼ無損失レベルの話者情報保持
音声デザインとサンプル
- 自然言語による説明に基づいてカスタム声質を生成可能
- 性別、年齢、感情、イントネーションなど細かな属性を制御
- 例: 命令口調の男性音声、感情的な女性音声、年齢別の声質など
- Timbre Reuse機能により、生成した声質を保存・再利用可能
CustomVoiceと声質制御
- 話者ごとのファインチューニング後も目標の声質維持と多言語発話が可能
- 単一属性制御と複数属性制御の両方をサポート
- 例: 悲しみ、怒り、ささやき、ゆっくりした話し方など細かな感情調整
- 9種類の公開声質セットを提供
- 中国語、英語、日本語、韓国語、方言を含む
- 例: 苏瑶(Serena), 福伯(Uncle Fu), 十三(Vivian), 甜茶(Ryan), 素熙(Sohee) など
Voice Cloneと多言語クローン
- 3秒の音声入力で高速音声クローンを実行
- 中国語・英語のクローンに加えてクロスリンガルクローンをサポート
- 例: 日本語、韓国語など多言語での発話が可能
- テキストノイズへのロバスト性を確保
- 複雑な記号、ピンイン、特殊文字を含む文も正確に発音
Tokenizerベースの音声復元
- 方言、歌唱、非言語音、背景音など多様な音響要素を復元可能
- 原音に対して高忠実度の再構成品質を実証
3件のコメント
おっ、ノートPCでも動きますね
私も最近はローカルでQwenベースのモデルを本当にたくさん使っています。
最初はアリババのモデルだからかなと思っていましたが、継続的に改善しながら拡張していくのが驚きですね。
Hacker Newsのコメント
macOSでmlx-audioを使って動かしてみた。Prince Canumaのツイートのおかげで可能だった
自分が使ったスクリプトはここにある
uvで実行すると最初に4.5GBのモデルをダウンロードする。サンプルコマンドは以下の通りuv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wav自分でvoice cloningを試してみたいなら、Hugging Faceデモでできる
「Voice Clone」タブに移動してサンプルテキストを貼り付け、マイクで自分の声を録音したあと、別のテキストを入力すれば、自分の声で読み上げるバージョンを生成できる
自分が生成した音声サンプルはここで共有した
興味深いモデルだ。1080 GPUで0.6Bモデルを回してみたが、200文字単位ならOOMなしで生成できた。道徳経のオーディオブックを作ろうとしたが、結果が毎回違っていて、まるで魔法のルーレットのようだった。明瞭な部分もあれば、笑ったりうめいたりするなど感情がばらついていた。Ryan話者が最も安定していて、Ericは大げさな中国風アクセントのように聞こえた。感情が一定なら、これまで使ったTTSの中で最高だったはずだ
Qwenチームにお願いしたい — Opus 4.5のコーディング能力を上回るモデルを出してほしい。モデル自体は気に入っているが、その会社の閉鎖的なリーダーシップと政治的な分断性は好きではない
こういう技術が鳥肌が立つほど進歩したのは久しぶりだ。2018年からAI TTSを使ってきたが、今回のモデルは初めて昔のラジオドラマの復元が可能だと感じた。たとえばテープ損傷で一部のセリフが失われた箇所を、文脈から復元できるかもしれない。Bob Baileyのような俳優たちの何十時間分もの音声を蘇らせられる可能性がある
Macで動かしてみた人はいるだろうか。インストールガイドが**NVIDIA GPU(CUDA、FlashAttention)**前提なので、PyTorch Metal/MPSバックエンドで動くのか分からない
--no-flash-attnオプションを使えば実行できる。自分もWindowsでそうしている最後のAge Controlの例は「アメリカ英語アクセント」に設定されていたが、自分の耳にはオーストラリア人がアメリカ英語アクセントをまねしているように聞こえた
オーディオブック制作に本当に向いていそうだ。既存のAI TTSはまだ自然さが不足していた
声優業界はこれからじわじわ煮込まれていく段階だ。一部のデモでは、インディー声優よりずっと完成度の高い音声が出ていた
いつか祖母がこれで詐欺に遭うのではと心配だ