Qwen3-TTSファミリーをオープンソース公開: 音声デザイン、クローン、生成機能を提供

(qwen.ai)

31 ポイント投稿者 GN⁺ 2026-01-23 | 3件のコメント | WhatsAppで共有

Qwen3-TTSは、音声クローン、音声デザイン、超高品質な人間らしい音声生成、自然言語ベースの制御をサポートする多言語音声生成モデルシリーズ
中国語、英語、日本語、韓国語など主要10言語とさまざまな方言をサポートし、1.7Bと0.6Bの2種類のモデルサイズを提供
独自開発のQwen3-TTS-Tokenizer-12Hzエンコーダーにより、音声信号を効率的に圧縮し、非言語情報と音響環境を完全に保持
Dual-Trackストリーミング構造により、文字を1文字入力した後すぐに最初のオーディオパケットを出力し、97ms遅延のリアルタイム合成性能を達成
オープンソース公開により、開発者や企業が高品質な音声生成技術を直接活用できる

Qwen3-TTS概要

Qwen3-TTSはQwenが開発した高性能音声生成モデルシリーズで、音声デザイン・クローン・生成・制御機能を統合して提供
- 自然言語コマンドで声質、感情、イントネーションなどを制御可能
- Qwen APIおよびGitHub経由で利用可能
Qwen3-TTS-Tokenizer-12Hzマルチコードブックエンコーダーを基盤として、高速・高忠実度の音声復元と効率的な圧縮を実現
Dual-Track双方向ストリーミングにより、文字単位のリアルタイム音声出力をサポート

モデル構成

モデル全体は1.7Bと0.6Bの2つのサイズで提供
- 1.7B: 最高性能と精密な制御機能を提供
- 0.6B: 性能と効率のバランス型
両モデルとも中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語をサポート
3秒の音声入力で高速音声クローンが可能で、ファインチューニング(FT)にも活用可能

主な技術的特徴

高性能な音声表現力
- Qwen3-TTS-Tokenizer-12Hzにより、音響信号の高次元意味モデリングと圧縮を実行
- 非言語情報や環境音を保持し、軽量なnon-DiT構造で高速復元をサポート
エンドツーエンドのマルチコードブック構造
- 従来のLM+DiT方式における情報ボトルネックとエラー蓄積の問題を除去
- モデルの汎用性、生成効率、性能上限を向上
超低遅延ストリーミング合成
- Dual-Trackハイブリッド構造でストリーミング・非ストリーミングを同時サポート
- 文字を1文字入力後に最初のオーディオを出力し、97ms遅延を達成
インテリジェントなテキスト理解と音声制御
- 自然言語コマンドベースで声質、感情、プロソディなど多次元属性を制御
- テキストの意味に応じてトーンとリズムを自動調整

モデル性能評価

音声デザイン: InstructTTS-EvalベンチマークでMiniMax-Voice-Designより高い指示追従性と表現力を達成
音声制御: 単一話者の多言語一般化でWER 2.34%、スタイル制御スコア**75.4%**を記録
- 10分連続合成でも中国語WER 2.36%、英語2.81%を維持
音声クローン: Seed-tts-evalでMiniMax、SeedTTSより安定
- 10言語平均でWER 1.835%、話者類似度 0.789を記録し、CosyVoice3を上回る性能

Tokenizer性能

LibriSpeech test-cleanセット基準でSOTAを達成
- PESQ: 広帯域 3.21、狭帯域 3.68
- STOI: 0.96、UTMOS: 4.16
- 話者類似度 0.95でほぼ無損失レベルの話者情報保持

音声デザインとサンプル

自然言語による説明に基づいてカスタム声質を生成可能
- 性別、年齢、感情、イントネーションなど細かな属性を制御
- 例: 命令口調の男性音声、感情的な女性音声、年齢別の声質など
Timbre Reuse機能により、生成した声質を保存・再利用可能
- 多話者対話や長編ナレーションに活用可能

CustomVoiceと声質制御

話者ごとのファインチューニング後も目標の声質維持と多言語発話が可能
単一属性制御と複数属性制御の両方をサポート
- 例: 悲しみ、怒り、ささやき、ゆっくりした話し方など細かな感情調整
9種類の公開声質セットを提供
- 中国語、英語、日本語、韓国語、方言を含む
- 例: 苏瑶(Serena), 福伯(Uncle Fu), 十三(Vivian), 甜茶(Ryan), 素熙(Sohee) など

Voice Cloneと多言語クローン

3秒の音声入力で高速音声クローンを実行
- 中国語・英語のクローンに加えてクロスリンガルクローンをサポート
- 例: 日本語、韓国語など多言語での発話が可能
テキストノイズへのロバスト性を確保
- 複雑な記号、ピンイン、特殊文字を含む文も正確に発音

Tokenizerベースの音声復元

方言、歌唱、非言語音、背景音など多様な音響要素を復元可能
原音に対して高忠実度の再構成品質を実証

3件のコメント

sudosudo 2026-01-24

おっ、ノートPCでも動きますね

xguru 2026-01-23

私も最近はローカルでQwenベースのモデルを本当にたくさん使っています。
最初はアリババのモデルだからかなと思っていましたが、継続的に改善しながら拡張していくのが驚きですね。

GN⁺ 2026-01-23

Hacker Newsのコメント

macOSでmlx-audioを使って動かしてみた。Prince Canumaのツイートのおかげで可能だった
自分が使ったスクリプトはここにある
uvで実行すると最初に4.5GBのモデルをダウンロードする。サンプルコマンドは以下の通り
uv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wav
- 本当にすごい。uvのまた一つの勝利だ
自分でvoice cloningを試してみたいなら、Hugging Faceデモでできる
「Voice Clone」タブに移動してサンプルテキストを貼り付け、マイクで自分の声を録音したあと、別のテキストを入力すれば、自分の声で読み上げるバージョンを生成できる
自分が生成した音声サンプルはここで共有した
- 正直かなり怖く感じる。z-image-turboと組み合わせれば、もう画面の中のあらゆるものは偽物かもしれないと考えるべきだ。暗号学的検証なしでは信用できない時代に入った
- HFデモは過負荷だったが、ローカルでは問題なく動いた。1.7Bモデルは話者のトーンはよく捉えるが、抑揚の変化が足りず単調に聞こえる。おそらくデモで表現力の調整機能を公開していないからだと思う。それでも0.6Bよりノイズ処理ははるかに良かった。FlashAttentionなしでは5090 GPUで0.3倍速程度と遅かったが、品質は印象的だった
- 驚くべき技術だ。自分の複製された声が本当に自分のように聞こえた。良い使い道も悪い使い道も多そうだ — たとえば亡くなった祖母が孫に絵本を読んであげることから、詐欺や自動ポッドキャスト制作まで可能だ
- 投稿された録音だけでは複製性能を判断しにくい。元の声のサンプルも一緒にあるべきだ
- 面白半分で使ってみた。自分の声を数分録音しておけば、いつか自分が自分に本を読んでくれるオーディオブックを作れるかもしれない
興味深いモデルだ。1080 GPUで0.6Bモデルを回してみたが、200文字単位ならOOMなしで生成できた。道徳経のオーディオブックを作ろうとしたが、結果が毎回違っていて、まるで魔法のルーレットのようだった。明瞭な部分もあれば、笑ったりうめいたりするなど感情がばらついていた。Ryan話者が最も安定していて、Ericは大げさな中国風アクセントのように聞こえた。感情が一定なら、これまで使ったTTSの中で最高だったはずだ
- 感情を直接指定してみた？空欄だと**ランダム感情(rng)**に設定されることがある
- 1080での**RTF（リアルタイム比）**が気になる。0.6Bモデルがエッジデバイスでリアルタイム推論できるか確認中だ
Qwenチームにお願いしたい — Opus 4.5のコーディング能力を上回るモデルを出してほしい。モデル自体は気に入っているが、その会社の閉鎖的なリーダーシップと政治的な分断性は好きではない
- 彼らが待ち望んでいたコメントかもしれない
- 自分も同じ問題に直面している（デンマーク人だ）。Open CodeとMinimax m2.1（月10ドル）でテストしたが、かなりうまく動いた。GLM 4.7も素晴らしい。詳しい比較はこの記事にある。わざわざ嫌いな会社に金を送る必要はない
- 「政治的に分断的」というのがどういう意味なのか気になる
- GLM 4.7で良い結果を得ている。maxアカウントを2つ24時間365日回していて、コードレビューはClaudeで一部処理している。コストが問題ならGLM 4.7は良い選択だ
- 新しく出たGLM 4.7を試したか聞きたい
こういう技術が鳥肌が立つほど進歩したのは久しぶりだ。2018年からAI TTSを使ってきたが、今回のモデルは初めて昔のラジオドラマの復元が可能だと感じた。たとえばテープ損傷で一部のセリフが失われた箇所を、文脈から復元できるかもしれない。Bob Baileyのような俳優たちの何十時間分もの音声を蘇らせられる可能性がある
- 聞いたサンプルが宮崎風アニメの吹き替えみたいに聞こえた。もしかしてそういうデータで学習したのだろうかと気になる
- 自分も「Have Gun - Will Travel」のラジオエピソードを復元するプロジェクトを計画中だ。テープ損傷や効果音の干渉で聞き取りにくい部分を復元できるなら本当に驚くべきことだ。もちろん悪用の可能性も大きいが
Macで動かしてみた人はいるだろうか。インストールガイドが**NVIDIA GPU（CUDA、FlashAttention）**前提なので、PyTorch Metal/MPSバックエンドで動くのか分からない
- FlashAttentionなしで--no-flash-attnオプションを使えば実行できる。自分もWindowsでそうしている
- modalを使ってMetal環境を借りるのを勧める
- FlashAttention依存があるので、現状では無理だ。誰かがMetal向けに移植してくれるといいのだが
最後のAge Controlの例は「アメリカ英語アクセント」に設定されていたが、自分の耳にはオーストラリア人がアメリカ英語アクセントをまねしているように聞こえた
オーディオブック制作に本当に向いていそうだ。既存のAI TTSはまだ自然さが不足していた
声優業界はこれからじわじわ煮込まれていく段階だ。一部のデモでは、インディー声優よりずっと完成度の高い音声が出ていた
いつか祖母がこれで詐欺に遭うのではと心配だ
- 今のところ、それが主なユースケースに見える
- でも最近の祖母たちはQVCや電話占い師の世代だから、もうそういうものには簡単に引っかからないかもしれない