Qwen3.5-Omni: テキスト・画像・音声・動画をすべて処理する完全オムニモーダルLLMを公開

(qwen.ai)

7 ポイント投稿者 GN⁺ 2026-03-31 | まだコメントはありません。 | WhatsAppで共有

テキスト・画像・音声・動画をすべて理解・生成するAlibaba Qwenチームの最新モデルで、Thinker-TalkerアーキテクチャにHybrid-Attention MoEを適用し、全モダリティの処理能力を大幅に強化
Plus・Flash・Lightの3サイズのInstruct版を提供し、256kロングコンテキスト入力、10時間以上の音声、720P基準で400秒以上の動画処理をサポート
Qwen3.5-Omni-Plusは215の音声・動画理解ベンチマークでSOTAを達成し、一般的な音声理解・推論・翻訳・対話の全領域でGemini-3.1 Proを上回る
前世代比で多言語対応が大幅に拡張され、74言語および39種類の中国語方言の音声認識、36言語の音声合成に対応し、ボイスクローン・Web検索・リアルタイム対話・感情/速度/音量制御などのインタラクティブ機能を新たに搭載
**ARIA(Adaptive Rate Interleave Alignment)**技術により、テキストと音声トークンのエンコード効率差から生じる欠落・誤読問題を解決し、ストリーミング音声合成の自然さと安定性を大きく改善

モデル概要

Qwen3.5-Omniは、テキスト、画像、音声、動画をすべて処理するQwenの最新の完全オムニモーダルLLM
ThinkerとTalkerの両方がHybrid-Attention MoE構造を採用し、マルチモーダル処理性能を向上
Plus、Flash、Lightの3つのInstruct版で提供され、いずれも256kロングコンテキスト入力をサポート
- 音声入力: 10時間以上
- 720P・1FPS基準の動画入力: 400秒以上
膨大なテキスト、視覚データ、1億時間以上の音声・ビジュアルデータでオムニモーダル方式の事前学習(pre-training)を実施
Offline APIおよびRealtime APIを通じて現在利用可能

Qwen3.5-Omni-Plusは、音声・映像理解・推論・インタラクションの215サブタスク/ベンチマークでSOTA達成
- 音声・映像ベンチマーク3種、音声ベンチマーク5種、ASRベンチマーク8種、言語別S2TT 156種、言語別ASR 43種を含む
一般的な音声理解・推論・認識・翻訳・対話の全領域でGemini-3.1 Proを上回り、全体の音声・映像理解水準もGemini-3.1 Proに到達
ビジュアル・テキスト性能は同サイズのQwen3.5モデルと同等レベル
音声・映像キャプショニング機能: 詳細で構造化されたキャプション、自動セグメンテーション・タイムスタンプ注釈、登場人物と音声の関係説明など、シナリオレベルの記述をサポート
Audio-Visual Vibe Coding: 音声・映像の命令に基づいて直接コードを生成する新しいオムニモーダル機能を確認

セマンティック割り込み(Semantic Interruption): Odinベースのターンテイキング意図認識により、backchannelingや背景雑音による不要な中断を防止; APIに標準搭載
WebSearchおよび複雑なFunctionCallをネイティブサポート: モデルが自律的にWeb検索呼び出しの要否を判断し、リアルタイムの問い合わせに対応
エンドツーエンドのボイスコントロール: 人のように指示に従い、発話の音量・速度・感情を自由に制御
ボイスクローン(Voice Clone): ユーザーが音声をアップロードしてAIアシスタントの声をカスタマイズ可能; すべてRealtime API経由で提供
システムプロンプトの修正により、モデルの対話スタイルおよびアイデンティティを変更可能

ストリーミング音声インタラクションで、テキストと音声トークンのエンコード効率差から生じる欠落・誤読・発音の不明瞭さの問題を解決するため、**ARIA(Adaptive Rate Interleave Alignment)**技術を提案
テキストと音声単位を動的に整列(interleave)し、リアルタイム性能を維持しながら音声合成の自然さと安定性を大幅に向上
前世代Qwen3-Omniの固定1:1テキスト・音声トークナイザ比率方式を置き換え

音声・映像 (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
音声 (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
音声合成安定性 WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19

Offline API: 動画・音声分析、Web検索(enable_searchパラメータ)をサポート; Python OpenAI互換SDKで呼び出し可能
Realtime API: WebSocketベースのリアルタイム対話; dashscope SDKを使用し、音声入出力ストリーミングをサポート
利用可能なモデルID: qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
中国本土(北京)と国際(シンガポール)のエンドポイントを分けてサポート