- テキスト・画像・音声・動画をすべて理解・生成するAlibaba Qwenチームの最新モデルで、Thinker-TalkerアーキテクチャにHybrid-Attention MoEを適用し、全モダリティの処理能力を大幅に強化
- Plus・Flash・Lightの3サイズのInstruct版を提供し、256kロングコンテキスト入力、10時間以上の音声、720P基準で400秒以上の動画処理をサポート
- Qwen3.5-Omni-Plusは215の音声・動画理解ベンチマークでSOTAを達成し、一般的な音声理解・推論・翻訳・対話の全領域でGemini-3.1 Proを上回る
- 前世代比で多言語対応が大幅に拡張され、74言語および39種類の中国語方言の音声認識、36言語の音声合成に対応し、ボイスクローン・Web検索・リアルタイム対話・感情/速度/音量制御などのインタラクティブ機能を新たに搭載
- **ARIA(Adaptive Rate Interleave Alignment)**技術により、テキストと音声トークンのエンコード効率差から生じる欠落・誤読問題を解決し、ストリーミング音声合成の自然さと安定性を大きく改善
モデル概要
- Qwen3.5-Omniは、テキスト、画像、音声、動画をすべて処理するQwenの最新の完全オムニモーダルLLM
- ThinkerとTalkerの両方がHybrid-Attention MoE構造を採用し、マルチモーダル処理性能を向上
- Plus、Flash、Lightの3つのInstruct版で提供され、いずれも256kロングコンテキスト入力をサポート
- 音声入力: 10時間以上
- 720P・1FPS基準の動画入力: 400秒以上
- 膨大なテキスト、視覚データ、1億時間以上の音声・ビジュアルデータでオムニモーダル方式の事前学習(pre-training)を実施
- Offline APIおよびRealtime APIを通じて現在利用可能
主な性能 (Offline)
- Qwen3.5-Omni-Plusは、音声・映像理解・推論・インタラクションの215サブタスク/ベンチマークでSOTA達成
- 音声・映像ベンチマーク3種、音声ベンチマーク5種、ASRベンチマーク8種、言語別S2TT 156種、言語別ASR 43種を含む
- 一般的な音声理解・推論・認識・翻訳・対話の全領域でGemini-3.1 Proを上回り、全体の音声・映像理解水準もGemini-3.1 Proに到達
- ビジュアル・テキスト性能は同サイズのQwen3.5モデルと同等レベル
- 音声・映像キャプショニング機能: 詳細で構造化されたキャプション、自動セグメンテーション・タイムスタンプ注釈、登場人物と音声の関係説明など、シナリオレベルの記述をサポート
- Audio-Visual Vibe Coding: 音声・映像の命令に基づいて直接コードを生成する新しいオムニモーダル機能を確認
主な機能 (Realtime)
- セマンティック割り込み(Semantic Interruption): Odinベースのターンテイキング意図認識により、backchannelingや背景雑音による不要な中断を防止; APIに標準搭載
- WebSearchおよび複雑なFunctionCallをネイティブサポート: モデルが自律的にWeb検索呼び出しの要否を判断し、リアルタイムの問い合わせに対応
- エンドツーエンドのボイスコントロール: 人のように指示に従い、発話の音量・速度・感情を自由に制御
- ボイスクローン(Voice Clone): ユーザーが音声をアップロードしてAIアシスタントの声をカスタマイズ可能; すべてRealtime API経由で提供
- システムプロンプトの修正により、モデルの対話スタイルおよびアイデンティティを変更可能
ARIA技術
- ストリーミング音声インタラクションで、テキストと音声トークンのエンコード効率差から生じる欠落・誤読・発音の不明瞭さの問題を解決するため、**ARIA(Adaptive Rate Interleave Alignment)**技術を提案
- テキストと音声単位を動的に整列(interleave)し、リアルタイム性能を維持しながら音声合成の自然さと安定性を大幅に向上
- 前世代Qwen3-Omniの固定1:1テキスト・音声トークナイザ比率方式を置き換え
アーキテクチャの変化 (Qwen3-Omni比)
- バックボーン: MoE → Hybrid-MoE
- シーケンス長: 32k → 256k (音声10時間、動画400秒)
- キャプショニング範囲: 音声専用 → 音声・映像
- セマンティック割り込み: 非対応 → 対応
- WebSearch/Tool: 非対応 → 対応
- ボイスコントロール・クローン: 非対応 → 対応
- Talker構造: デュアルトラック自己回帰(Dual-Track Autoregression) → Interleave + ARIA
多言語対応の拡張
- 音声認識(ASR)
- 以前: 11言語 + 中国語方言8種
- 現在: 74言語 + 中国語方言39種
- 音声合成(TTS)
- 以前: 29言語 + 中国語方言7種
- 現在: 36言語の音声生成 (原文に方言合成の一覧は別記なし)
ベンチマーク数値 (主要抜粋)
- 音声・映像 (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
- 音声 (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
- 音声合成安定性 WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19
APIおよび利用方法
- Offline API: 動画・音声分析、Web検索(
enable_searchパラメータ)をサポート; Python OpenAI互換SDKで呼び出し可能
- Realtime API: WebSocketベースのリアルタイム対話; dashscope SDKを使用し、音声入出力ストリーミングをサポート
- 利用可能なモデルID:
qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
- 中国本土(北京)と国際(シンガポール)のエンドポイントを分けてサポート
ボイス一覧
- 中国語・英語カスタムボイス: Tina, Cindy, Liora Mira, Sunnybobi, Raymond など5種
- 感情表現付き・ロールプレイなどのシナリオボイス: Ethan, Harvey, Maia など19種 (中・英)
- 中国語方言ボイス: 四川語、北京方言、天津方言、広東語など8種
- 多言語ボイス: 韓国語(Sohee)、ドイツ語(Lenn)、日本語(Ono Anna)、スペイン語、フランス語、ロシア語など23言語・計23種
まだコメントはありません。