- Qwen3-Omni-Flash-2025-12-01は、テキスト、画像、音声、動画を同時に処理し、リアルタイムストリーミングでテキストと音声出力を生成する次世代マルチモーダルモデル
- 音声・ビジュアル指示の理解力と対話の安定性が大きく向上し、自然で一貫した音声・映像インタラクションを実現
- システムプロンプトの完全制御機能により、人格スタイル、話し方、出力長などを細かく調整可能
- 119言語のテキスト、19言語の音声認識、10言語の音声合成をサポートし、多言語一貫性の問題を解決
- 論理推論、コード生成、視覚・音声理解など全領域で性能が向上し、自然で精密なAIインタラクション体験を提供
Qwen3-Omni-Flash-2025-12-01 概要
- Qwen3-Omniは、テキスト、画像、音声、動画など多様な入力を処理し、リアルタイムでテキストと自然な音声出力を生成するネイティブマルチモーダル大規模モデル
- 今回のバージョン Qwen3-Omni-Flash-2025-12-01 は、既存のQwen3-Omniをベースにした全面アップグレード版
- モデル性能と効率性を全般的に改善し、より高速で正確なマルチモーダル処理能力を提供
主な機能向上
-
音声・ビジュアルインタラクションの強化
- 音声・映像指示の理解と実行能力が大きく向上し、日常的な口語場面での知能低下問題を解決
- 複数ターンの音声・ビジュアル対話における安定性と一貫性が高まり、自然なインタラクションが可能
-
システムプロンプト制御の強化
- システムプロンプトを完全にカスタマイズでき、モデルの挙動を精密に制御可能
- 人格スタイル(例: スイート、クール、アニメ風)、話し方、出力長などの要素を細かく調整
-
多言語対応の信頼性向上
- テキストベースのインタラクション119言語、音声認識19言語、音声合成10言語をサポート
- 以前のバージョンにあった言語の不安定性の問題が解消され、正確で一貫した多言語性能を確保
-
自然な音声合成
- 発話速度、ポーズ、イントネーションをテキスト文脈に応じて自動調整し、人間に近い音声品質を実現
- 遅い、または機械的な音声を排除し、表現力のある自然な音声出力を提供
性能向上指標
-
テキスト理解および生成能力の強化
- 論理推論 ZebraLogic +5.6、コード生成 LiveCodeBench-v6 +9.3、MultiPL-E +2.7、文章品質 WritingBench +2.2 が向上
- 複雑な多段階指示の実行における信頼性が向上
-
音声理解精度の向上
- Fleurs-zhで単語誤り率が低下し、VoiceBench +3.2 改善
- 実際の対話環境での音声理解力を強化
-
音声合成品質の改善
- 中国語および多言語環境で自然なイントネーションとリズムを実現
- 人間の音声に近い発話品質を確保
-
画像理解力の強化
- 視覚推論タスクで MMMU +4.7、MMMU-Pro +4.8、MathVision_full +2.2 向上
- ダイアグラム、数学的図形など複雑な視覚コンテンツの解釈能力を強化
-
動画理解力の改善
- MLVU +1.6 向上により動画の意味理解力を強化
- 音声・ビジュアル同期の改善により、リアルタイム映像対話基盤を強化
今後の計画
- ユーザーフィードバックとQwen3-Omniベースの革新的な応用事例を収集予定
- 今後、多話者音声認識(ASR)、動画OCR、音声・動画の自律学習、エージェントベースのワークフローおよび関数呼び出し対応などへ機能拡張予定
引用情報
- 研究で利用する際は次の引用文の使用を推奨
@misc{qwen3_omni_20251201, author={{Qwen Team, Alibaba}}, title={{Qwen3-Omni-Flash-2025-12-01:Hear You. See You. Follow Smarter!}}, year={2025}, url={https://qwen.ai/blog?id=qwen3-omni-20251201}}
1件のコメント
Hacker Newsのコメント
今回のモデルは 30BパラメータのMoE 構造で、アクティブパラメータは3B程度
以前の7B omniモデルの後継で、Qwen2.5-Omni-7Bに近い性能が期待できそう
公開されているomniモデルはあまり多くないので、かなり意味のあるリリースだと思う
個人的にはこのモデルを 入出力インターフェース(キーボード・モニター) の代替として使い、バックエンドでは別の技術で計算処理を行う構成で活用したい
reasoning版もあり、音声チャット中に「考え中」トークンを発音する機能があってかなり面白そう
650Mの音声エンコーダ、540Mのビジョンエンコーダ、30B-A3B LLM、3B-A0.3B音声LLM、そして80M Transformer/200M ConvNetで音声トークンを波形に変換する
Qwen3-Omniの 非公開重み更新版 で、以前はQwen/Qwen3-Omni-30B-A3B-Instructが公開されていた
現時点ではオープンソースの推論フレームワークで完全にはサポートされておらず、transformersでのみ非常に遅く動作する
Qwen3-OmniがGPT-4oのように リアルタイム会話 をサポートしているのか気になっていた
ドキュメント上は対応していないように見えたが、実際にはサポートしているらしい
もし 非NVIDIA環境 でローカル実行した人がいるのか気になる
自分は同音異義語テスト(record vs record)や音声トーン変更の依頼で確認することがある
Silly Tavernのようなものもほぼ使い物にならないレベルだ
ただ、こうしたローカル音声モデルこそ 自然言語ベースのワークフロー の中核になるはずだ
MacbookでGGUFやMLXで Omniモデルを動かせる のか気になっていた
LMStudioやLlama.cppでは可能だが、マイクやウェブカメラのストリーミングには対応していない
Qwenは通常CudaベースのPythonサンプルを提供するので、オープンソースの代替があるか探しているところ
自分は Gemini Flash Live 2.5 をよく使っている
3.0版が近いうちに出ることを期待している
ベンチマーク上ではGemini Liveより優れているようだが、実際に試してみる必要がある
個人的には英語中心の環境ではQwen Omniモデルにいつも物足りなさを感じていた
32Bならかなり小さいので、64GB RAMのマシンでも動かせる 気がする
Ollamaに載ったら自分でも試してみるつもり
ただ論文のベンチマークではQwen3-Omni-Flash-2025-12-01がQwen3-235B-A22Bより高性能とされている
30Bモデルなのにどうして可能なのか混乱する
FLASH版はHugging Faceにはなく、API専用モデル である可能性が高い
最初はAPI専用だと思っていたが、Hugging Faceコレクション にモデル自体はある
ただ実際には 旧バージョン で、HFデモもAPIを呼び出す方式なのでローカル計算ではない
Qwen3-Omniが 2.5 Flashをすべてのベンチマークで圧倒 している点が印象的
そろそろLLMワークロードをローカルGPUへ移す時期かもしれない
公開ベンチマークは信頼しにくく、そのままモデルを選ぶと失望するかもしれない
音声モデルの話し方が 生気のない感じ に聞こえる理由が気になった
特に果物の価格の部分では完全に自然なのに、AIだとすぐ分かった
おそらく抑揚や一定の発話速度のせいだと思う
過剰な感情表現は不自然に感じる
ただ、ドイツ語の発音ミスがあったのは残念だった
音声合成の段階が別にあるため、そうした結果になっているようだ
歌や抑揚のテストで確認できるかもしれない
ChatGPTの音声モデルがいちばん自然だ
リアルタイム音声出力では、「考え中」トークンとユーザー向け発話 を区別するのが難しいという問題がある
reasoning/structuredトークンは片方へ、ユーザー向けテキストは別のほうへ送り、
後者だけを音声合成すれば「考え中」が聞こえる問題を解決できる
Qwenは オープンウェイト公開の有無を曖昧に 表現しているように思う
実際には大半が非公開で、公開されているように見えても API専用 の場合が多い
そのせいで、ユーザーはモデルを探すのに無駄足を踏まされる