Qwen3-Omni: テキスト・画像・動画のためのネイティブOmni AIモデル

(github.com/QwenLM)

12 ポイント投稿者 GN⁺ 2025-09-23 | 2件のコメント | WhatsAppで共有

テキスト、画像、音声、動画を1つのモデルで処理し、リアルタイム音声生成が可能な最先端マルチモーダルLLM
119のテキスト言語、19の音声入力言語、10の音声出力言語をサポートし、グローバルサービスの実装に最適化された特徴を持つ
モデル構造はMoEベースのThinker–Talker設計で、性能・効率の両方を強化し、ストリーミングベースの対話とユーザー別の動作制御を提供
オープンソースとして公開されたQwen3-Omni-30B-A3B-Captionerは、詳細でハルシネーション率の低い音声キャプション機能を提供
Hugging Face Transformers、vLLM、Docker、APIなど、多様で柔軟な本番サービス適用経路と開発利便機能を備える

Qwen3-Omniの概要と重要性

Qwen3-Omniは、Alibaba CloudのQwenチームが開発したエンドツーエンドの多言語Omnimodal LLM（open-source large language model）
このプロジェクトは、現在のオープンソース・マルチモーダルAIの中でも珍しく、テキスト、画像、音声、動画まで統合的に理解し、リアルタイムで応答を生成できる点が特徴
競合するオープンソースと比べて、広範な言語対応、リアルタイムストリーミング、高精度な音声キャプショニングなどの強みを持つ
自然言語による質疑応答、音声・ビジュアル状況分析、時系列マルチモーダルインターフェースなど、さまざまな新規サービスを迅速に実装可能

主な特徴

マルチモーダル処理: テキスト、画像、音声、動画入力をまとめて処理し、リアルタイムのテキスト/音声応答を出力
最先端の性能: 音声/動画関連の36ベンチマーク中22件でSOTA、オープンソース基準では32件でSOTA、ASR・音声対話性能はGemini 2.5 Proと同等レベル
広範な言語対応: 119のテキスト、19の音声入力、10の音声出力言語をサポート
リアルタイムストリーミング: 自然なターンテイキングと迅速な即時応答
ユーザー別の制御: システムプロンプトによる細かな動作制御と適応性の確保
MoEベースのアーキテクチャ: Thinker–Talker設計、AuT事前学習、マルチコードブック構造で超低遅延/高効率を実現
音声キャプションモデルのオープンソース化: Qwen3-Omni-30B-A3B-Captionerにより、詳細な音声説明とハルシネーション抑制を支援

対応ドメイン別シナリオ例

音声: 音声認識、音声翻訳、音楽/音分析、音声キャプションなど
ビジュアル: 複合画像OCR、物体認識、画像ベースQA、数学問題の解法、動画説明・経路案内、シーン転換分析など
音声+ビジュアル: マルチモーダルQA、対話、エージェント音声呼び出しなど
ダウンストリーム・ファインチューニング: Qwen3-Omni-30B-A3B-Instructを活用したキャプションモデルのファインチューニング

モデル別説明

Qwen3-Omni-30B-A3B-Instruct: 音声・動画・テキスト入力 + テキスト/音声出力（thinker+talker）
Qwen3-Omni-30B-A3B-Thinking: 音声・動画・テキスト入力 + テキスト出力（thinker専用、chain-of-thought reasoning）
Qwen3-Omni-30B-A3B-Captioner: 音声入力→テキスト出力、詳細説明・ハルシネーション最小化（キャプション特化）

主な利用環境と利点

Hugging Face Transformers統合: 容易なコード組み込み、多様な入力チャネル（B64、URLなど）の柔軟な処理、FlashAttention 2対応
vLLM: 大規模本番環境での低遅延・同時実行性に強みがあり、バッチ推論が高速で、マルチGPU環境へ容易に拡張でき、サーバー-API統合にも優れる
Dockerイメージ提供: 環境衝突を最小化し、簡単に実験/デプロイ可能
DashScope API: Alibaba公式APIで、リアルタイム/オフラインの両方をサポート
Web/オンプレミスデモ: 別途構築せずともWebベースで体験可能

実利用例とヒント

コアアルゴリズムと機能

Thinker–Talker構造により、高度な推論と音声合成を分離して実現可能
さまざまな入力組み合わせ（純粋なテキスト/テキスト+画像/音声/動画など）に対し、一貫したAPIと明示的なプロンプト処理をサポート
音声出力を不要とする場合のメモリ節約オプションあり（10GB以上のメモリ節約）
多様な音声合成（Ethan、Chelsie、Aidenなど）オプションをサポートし、speakerパラメータで選択可能

高度なバッチ/対話例

複数件のマルチモーダルメッセージを一度に統合処理でき、大容量データ・ベンチマーク・対話型サービスで効率的
各メッセージ（テキスト、画像、音声、動画の組み合わせ）に対してカスタム応答を生成

vLLMベースの実務デプロイ

パラメータ設定（tensor_parallel_size、max_num_seqs、limit_mm_per_promptなど）により、同時推論やメモリチューニングが可能
vLLM serveでAPI方式の対話をサポートし、今後Instructモデルの音声出力にも対応予定

APIと環境

DashScope APIを通じて、クラウドのリアルタイム・オフライン/キャプション別APIドキュメント（中国/グローバル）を提供
本番サービス、研究など目的に応じて、vLLM、Official API、Transformers環境を横断する柔軟性

システム要件/推奨事項

BF16精度基準で15〜120秒動画に対する最小メモリ要件（68〜145GB）を案内
GPU環境、FlashAttention 2対応が必要
プロンプト利用のヒント: 明示的なテキスト指示をマルチモーダル入力と併用すること

エージェントおよびダウンストリーム活用

音声ベースの機能呼び出し、リアルタイムのマルチモーダル対話・分析・アシスタントサービス、詳細な音声キャプションなど、多様なエージェント構築が可能
システムプロンプトによる役割制御、対話スタイル・フレーム設定の例を提供

まとめ

Qwen3-Omniは、オープンソースLLMの中でも世界最大級の汎用テキスト+音声+画像+動画を統合提供し、リアルタイム・大規模Webサービス、研究、組織内構築に最適。vLLM、API、Docker環境などとの緊密な統合と高い互換性、詳細な事例サポートにより、開発効率と競争優位の確保に非常に大きな利点がある。

2件のコメント

yeorinhieut 2025-09-24

ハングル - ハングルに対応していますね！

GN⁺ 2025-09-23

Hacker Newsのコメント

英語で会話するとかなり遅く感じたが、スペイン語で会話するとずっと速く感じた。リアルタイム翻訳のようなすごい機能がもうすぐ使えるようになると思うと本当に印象的だ。米国の研究所がオープンウェイト競争に本気で乗り出さないなら、最終的には中国がAI市場を掌握するのではないかと思う。プライバシーやデータ所有権に敏感な米国人は、結局のところ自宅でオープンな中国製モデルを動かす1,000〜2,000ドルの機器を持つようになるかもしれず、本当に驚くべき変化だと感じる
- 米国で暮らしながら、中国がLinuxを強く推奨し、RISC-VのようなオープンCPUアーキテクチャ、さらにはセルフホスト可能なオープンモデルまで後押ししているという記事を見ている。むしろ自分たちのほうが「悪役」なのではないかという気がしてくる
- 自分は実際に家で3090を2枚使ってQwen3を動かしている。Home Assistantと連携し、esp32の音声サテライト機器まで活用しているが、驚くほどよく動いている
- 一般的な米国人は、プライバシーを保証する技術にさらに1,000〜2,000ドルを払う意思はほとんどないように思う。多くの人はすでに20〜200ドルを節約するために、IoTカメラ（Ringなど）経由で自宅内の音声や映像を令状なしで政府に提供しているようなものだ
https://chat.qwen.ai/で直接試せる。音声モードを使うにはGoogleかGitHubでログインする必要がある。さまざまな声が用意されていて、たとえば Dylan（北京の路地で育った10代）、Peter（天津のコント専門家）、Cherry（明るく前向きな若い女性）、Ethan（元気で温かみのある少年）、Eric（四川・成都出身の個性的な男性）、Jada（上海出身のカリスマ姉さん）などがある
- 特に言語を切り替えて声を試すと本当に面白い。ロシア語ではRyanが「1か月前からロシア語を学び始めた西洋人」という感じで、Dylanはもう少し自然。他の声は強いアジア訛りの混じったロシア語で、それぞれ個性があって楽しい
- 自分にはOmni Flashしか見えないのだが、それで合っているのだろうか
モデルウェイトは70GBで、Hugging Faceでもファイルサイズが表示されている（Qwen/Qwen3-Omni-30B-A3B-Instruct）。ローカルで動かすにはかなり扱いやすいサイズだ。macOS向けポートが近いうちに出るのか気になる。今のところはNVIDIA GPUが必須に見える
- BF16基準なので、量子化（Q4）すれば24GB GPUにも十分載りそうだ。同じ30B-A3B系モデルとだいたい同じだと思う。200B+サイズではないかと心配していたが、それは助かる
- 時間がなくて試せていないが、昨日公開されたApple向けのMojo stuffと連携させて動かそうとする試みは面白そうだ。まだ完成度は分からないが、楽しい挑戦になりそうだと思う
- macOSで動く推論エンジンがあるのか気になる
- 5090でも動かせるのか知りたい。あるいは複数GPUを接続できるのか、それともNVIDIAが塞いでいるのか気になる
デモ動画がこちらにある。特に、映像＋音声入力を別の言語に翻訳して音声出力まで行う場面は、これまで見た中でいちばん印象的だった
YouTubeデモ動画
この分野で本当のレバレッジポイントは性能/サイズだと思う。オープンウェイト競争が生まれれば、効率の革新が半ば強制されるはずだ。クローズドウェイトのモデルでは思いつかない強みが生まれるかもしれない。クラスター型の集団推論メカニズムが十分発達したとき、H100サーバー1台上の8つの30Bモデルが、1つの240Bモデルを精度で上回る時点がいつ来るのか気になる
興味本位で簡単な音声クリップをいくつか入れてみたが、ピアノやドラムのような楽器まで識別できるレベルだった。音声以外のオーディオ認識に焦点を当てたマルチモーダルLLM研究は、まだあまり見たことがない気がする。最先端の状況（SOTA）について、もっと深い分析があればうれしい
"native video support" が実際には何を意味するのか気になる。単に連続したフルフレーム画像を解釈しているだけで（その方式だと高速なイベントは見逃すことになる）、それ以上ではないのか、それとももっと複雑な技術を意味しているのか知りたい
音声入力＋音声出力は本当に大きな変化だと思う。理論上は音声で会話し、そのまま自分の言語や相手の言語に翻訳できるようになる。今はウェイクワード、音声テキスト変換、テキスト音声変換など、途中でさまざまな技術が必要だが、このモデルは少なくとも32b級で音声入出力の両方に対応したバージョンが3つほどあるように見える。アーキテクチャ次第では、今後は家庭内や「AIトースター」のような機器上で直接動かせるようになるかもしれない
- こういうモデルをホームオートメーションシステムにtool callsで接続すれば、機会は非常に大きいと思う。ChatGPTにこの機能が入ってから、他のサービスでも対応を待っていた。特に料理など手が使えない状況で（「次の手順を読んで、手に肉がついてる」「ルーを作るのに小麦粉はどれくらい必要？」「レモンがないけど代わりに何を使うといい？」）、革新的な使い方ができるはずだ
- 何より言語学習に大いに役立ちそうだ。ローカルでも動かせそうに見えるし、特にunslothの開発者たちが扱うようになればさらに期待できる
Qwenのthinker/speakerアーキテクチャは本当に興味深い。自分が人間のマルチモーダル認知のあり方を想像するときにかなり近い。たとえばリンゴの写真、"apple" という綴り、音のすべてが、途中でテキストを経由しなくても同じ概念にマッピングされるような方式だ
- すべてのLLMがそういう仕組みで動いているわけではないのだろうか
マルチモーダルモデルを学ぶのに良い資料があるのか気になる。どこから始めるのがよいのかよく分からない