1 ポイント 投稿者 GN⁺ 2025-12-12 | 1件のコメント | WhatsAppで共有
  • Qwen3-Omni-Flash-2025-12-01は、テキスト、画像、音声、動画を同時に処理し、リアルタイムストリーミングでテキストと音声出力を生成する次世代マルチモーダルモデル
  • 音声・ビジュアル指示の理解力と対話の安定性が大きく向上し、自然で一貫した音声・映像インタラクションを実現
  • システムプロンプトの完全制御機能により、人格スタイル、話し方、出力長などを細かく調整可能
  • 119言語のテキスト19言語の音声認識10言語の音声合成をサポートし、多言語一貫性の問題を解決
  • 論理推論、コード生成、視覚・音声理解など全領域で性能が向上し、自然で精密なAIインタラクション体験を提供

Qwen3-Omni-Flash-2025-12-01 概要

  • Qwen3-Omniは、テキスト、画像、音声、動画など多様な入力を処理し、リアルタイムでテキストと自然な音声出力を生成するネイティブマルチモーダル大規模モデル
  • 今回のバージョン Qwen3-Omni-Flash-2025-12-01 は、既存のQwen3-Omniをベースにした全面アップグレード版
  • モデル性能と効率性を全般的に改善し、より高速で正確なマルチモーダル処理能力を提供

主な機能向上

  • 音声・ビジュアルインタラクションの強化

    • 音声・映像指示の理解と実行能力が大きく向上し、日常的な口語場面での知能低下問題を解決
    • 複数ターンの音声・ビジュアル対話における安定性と一貫性が高まり、自然なインタラクションが可能
  • システムプロンプト制御の強化

    • システムプロンプトを完全にカスタマイズでき、モデルの挙動を精密に制御可能
    • 人格スタイル(例: スイート、クール、アニメ風)、話し方、出力長などの要素を細かく調整
  • 多言語対応の信頼性向上

    • テキストベースのインタラクション119言語、音声認識19言語、音声合成10言語をサポート
    • 以前のバージョンにあった言語の不安定性の問題が解消され、正確で一貫した多言語性能を確保
  • 自然な音声合成

    • 発話速度、ポーズ、イントネーションをテキスト文脈に応じて自動調整し、人間に近い音声品質を実現
    • 遅い、または機械的な音声を排除し、表現力のある自然な音声出力を提供

性能向上指標

  • テキスト理解および生成能力の強化

    • 論理推論 ZebraLogic +5.6、コード生成 LiveCodeBench-v6 +9.3MultiPL-E +2.7、文章品質 WritingBench +2.2 が向上
    • 複雑な多段階指示の実行における信頼性が向上
  • 音声理解精度の向上

    • Fleurs-zhで単語誤り率が低下し、VoiceBench +3.2 改善
    • 実際の対話環境での音声理解力を強化
  • 音声合成品質の改善

    • 中国語および多言語環境で自然なイントネーションとリズムを実現
    • 人間の音声に近い発話品質を確保
  • 画像理解力の強化

    • 視覚推論タスクで MMMU +4.7MMMU-Pro +4.8MathVision_full +2.2 向上
    • ダイアグラム、数学的図形など複雑な視覚コンテンツの解釈能力を強化
  • 動画理解力の改善

    • MLVU +1.6 向上により動画の意味理解力を強化
    • 音声・ビジュアル同期の改善により、リアルタイム映像対話基盤を強化

今後の計画

  • ユーザーフィードバックとQwen3-Omniベースの革新的な応用事例を収集予定
  • 今後、多話者音声認識(ASR)動画OCR音声・動画の自律学習エージェントベースのワークフローおよび関数呼び出し対応などへ機能拡張予定

引用情報

  • 研究で利用する際は次の引用文の使用を推奨

1件のコメント

 
GN⁺ 2025-12-12
Hacker Newsのコメント
  • 今回のモデルは 30BパラメータのMoE 構造で、アクティブパラメータは3B程度
    以前の7B omniモデルの後継で、Qwen2.5-Omni-7Bに近い性能が期待できそう
    公開されているomniモデルはあまり多くないので、かなり意味のあるリリースだと思う
    個人的にはこのモデルを 入出力インターフェース(キーボード・モニター) の代替として使い、バックエンドでは別の技術で計算処理を行う構成で活用したい
    reasoning版もあり、音声チャット中に「考え中」トークンを発音する機能があってかなり面白そう

    • このモデルはいくつもの構成要素を積み重ねた形になっている
      650Mの音声エンコーダ、540Mのビジョンエンコーダ、30B-A3B LLM、3B-A0.3B音声LLM、そして80M Transformer/200M ConvNetで音声トークンを波形に変換する
      Qwen3-Omniの 非公開重み更新版 で、以前はQwen/Qwen3-Omni-30B-A3B-Instructが公開されていた
      現時点ではオープンソースの推論フレームワークで完全にはサポートされておらず、transformersでのみ非常に遅く動作する
    • Alibaba Cloudのドキュメントを見ると、このモデルは オープンソースではない
    • 新バージョンの重みはどこにも見つからなかった。ModelscopeとHugging Faceを確認したがなく、コンテキストウィンドウが200K+トークン に拡張されているようだ
    • reasoning版が思考トークンを発音するという点は興味深い。以前Claudeもこのように動いていた
    • 思考トークンにリバーブのような効果を入れれば、モデルの「思考音」を聞けるかもしれず面白そう
  • Qwen3-OmniがGPT-4oのように リアルタイム会話 をサポートしているのか気になっていた
    ドキュメント上は対応していないように見えたが、実際にはサポートしているらしい
    もし 非NVIDIA環境 でローカル実行した人がいるのか気になる

    • 公式チャットサイトにはまだ 音声→音声モデル がない
      自分は同音異義語テスト(record vs record)や音声トーン変更の依頼で確認することがある
    • vLLMやSGLangのような推論フレームワークがまだ完全対応していないため、非NVIDIA環境では不可能
    • それでもネイティブの speech-to-speech 機能はあるようだ
    • まだ完成度の高いローカル音声チャットアプリはないと思う
      Silly Tavernのようなものもほぼ使い物にならないレベルだ
      ただ、こうしたローカル音声モデルこそ 自然言語ベースのワークフロー の中核になるはずだ
  • MacbookでGGUFやMLXで Omniモデルを動かせる のか気になっていた
    LMStudioやLlama.cppでは可能だが、マイクやウェブカメラのストリーミングには対応していない
    Qwenは通常CudaベースのPythonサンプルを提供するので、オープンソースの代替があるか探しているところ

  • 自分は Gemini Flash Live 2.5 をよく使っている
    3.0版が近いうちに出ることを期待している
    ベンチマーク上ではGemini Liveより優れているようだが、実際に試してみる必要がある
    個人的には英語中心の環境ではQwen Omniモデルにいつも物足りなさを感じていた

  • 32Bならかなり小さいので、64GB RAMのマシンでも動かせる 気がする
    Ollamaに載ったら自分でも試してみるつもり

    • Hugging FaceのQwen3-Omni-30B-A3Bモデルは9月に更新されたように見える
      ただ論文のベンチマークではQwen3-Omni-Flash-2025-12-01がQwen3-235B-A22Bより高性能とされている
      30Bモデルなのにどうして可能なのか混乱する
      FLASH版はHugging Faceにはなく、API専用モデル である可能性が高い
    • 自分は 48GB RAMのMac でユニファイドメモリのおかげで問題なく動かしている
  • 最初はAPI専用だと思っていたが、Hugging Faceコレクション にモデル自体はある
    ただ実際には 旧バージョン で、HFデモもAPIを呼び出す方式なのでローカル計算ではない

  • Qwen3-Omniが 2.5 Flashをすべてのベンチマークで圧倒 している点が印象的
    そろそろLLMワークロードをローカルGPUへ移す時期かもしれない

    • ただし必ず 自分のデータセットでベンチマーク すべきだ
      公開ベンチマークは信頼しにくく、そのままモデルを選ぶと失望するかもしれない
    • テキスト専用作業ならOmniではなく Qwen3-30B-A3B を使うほうが効率的
    • 画像ベンチマークはQwen 2.0との比較に見えるのでやや疑わしい
  • 音声モデルの話し方が 生気のない感じ に聞こえる理由が気になった
    特に果物の価格の部分では完全に自然なのに、AIだとすぐ分かった
    おそらく抑揚や一定の発話速度のせいだと思う

    • 自分はむしろ感情が強すぎないほうが良いと思う
      過剰な感情表現は不自然に感じる
      ただ、ドイツ語の発音ミスがあったのは残念だった
    • 完全な end-to-endマルチモーダル ではないのかもしれない
      音声合成の段階が別にあるため、そうした結果になっているようだ
      歌や抑揚のテストで確認できるかもしれない
    • ビジョン、音声、多言語、抑揚制御など、あまりに多くの機能を 30Bパラメータ に詰め込んでいるからかもしれない
      ChatGPTの音声モデルがいちばん自然だ
    • AIの話し方だとすぐ分かるのは、むしろ 良いこと かもしれない
    • 自分はむしろAI特有の アクセント(accent) があるほうが好きだ
  • リアルタイム音声出力では、「考え中」トークンとユーザー向け発話 を区別するのが難しいという問題がある

    • 単純な方法は、TTSの前に出力ストリームを分離することだ
      reasoning/structuredトークンは片方へ、ユーザー向けテキストは別のほうへ送り、
      後者だけを音声合成すれば「考え中」が聞こえる問題を解決できる
  • Qwenは オープンウェイト公開の有無を曖昧に 表現しているように思う
    実際には大半が非公開で、公開されているように見えても API専用 の場合が多い
    そのせいで、ユーザーはモデルを探すのに無駄足を踏まされる