アリババのQwenチームが2026年4月にオープンソースとして公開した大規模言語モデルです。MoE(Mixture-of-Experts)アーキテクチャを採用しています。MoEとは、モデル内部に複数の「専門家ネットワーク」を持ち、入力が与えられるたびにその一部だけを選んで活性化する方式です。総パラメータ数は350億ですが、実際の推論時に使うのは30億のみで、全体容量の約8.6%だけで動作します。テキストだけでなく画像・動画も理解するマルチモーダルモデルであり、思考過程を表示するThinkingモードと、すぐに回答するNon-thinkingモードの両方をサポートします。
主要ポイント
- 前作Qwen3.5-35B-A3B比で、エージェント型コーディング(AIが自らファイルを探索し、ターミナルを実行し、バグを診断・修正する自律的なコーディング方式)の性能が大幅に向上
- SWE-bench Verified(実際のソフトウェアバグ修正評価)で73.4点、Terminal-Bench 2.0で51.5点を記録し、パラメータ数がはるかに大きいDenseモデル(すべてのパラメータを使う従来構造)であるQwen3.5-27Bを多くの項目で上回る
- 数学コンテスト(AIME 2026)で92.7点、リアルタイムコーディング(LiveCodeBench v6)で80.4点と、27B Denseモデルに匹敵
- マルチモーダル領域ではMMMU 81.7点、RealWorldQA 85.3点でClaude Sonnet 4.5(有料商用モデル)を上回り、画像内オブジェクト位置認識(RefCOCO 92.0)など空間知能で特に強みを持つ
- OpenClaw、Claude Code、Qwen Codeなどのサードパーティ製コーディングツールと即時連携でき、Anthropic APIプロトコルにも対応
長所
- アクティブパラメータ3Bで27〜31B Denseモデルに匹敵する性能を出せるため、GPUメモリと消費電力が少なく、小規模環境でも運用可能
- エージェント型コーディングのベンチマーク全般で同クラス最高水準
- テキスト・画像・動画・文書を1つのモデルでまとめて処理
- 完全オープンソースで、誰でもダウンロード・追加学習・カスタマイズが可能
短所
- 汎用エージェント作業(VITA-Bench 35.6点)では前作の27B Denseモデル(41.8点)を下回り、なお改善の余地がある
- 最高難度の学術推論(HLE 21.4点)でもDense大型モデル(24.3点)に後れを取る
- 知識ベンチマーク(MMLU-Pro)ではやや不利
- APIはまだ「coming soon」段階で、すぐに大規模サービスへ適用するのは難しい
差別化ポイント
- 類似のMoE構造を持つGoogle Gemma4-26B-A4Bをほぼすべてのベンチマークで大きく上回る
- エージェント作業時に以前の対話ターンの思考内容を保持する
preserve_thinking機能により、長期的な文脈維持に有利 - Anthropic APIプロトコルにも対応しており、Claude Codeエコシステムにもすぐに参入可能
示唆
- アクティブパラメータ3Bで27Bモデルに匹敵する結果は、MoEアーキテクチャがAI効率性の新たな標準になりつつあることを示している
- オープンソースモデルがClaude Sonnet 4.5のような有料モデルを多くの項目で上回ることで、企業が高価なAPIではなく自社ホスティングへ移行する動機が強まっている
- ベンチマーク構成でエージェント型コーディングの比重が非常に高く、業界がAIの自律的なソフトウェア開発能力を最重要の評価基準として見ていることを示唆している
2件のコメント
QwenチームのいないQwenチームが市場の不安を管理しようとして、ベンチマークにだけ合わせて性急に出したモデルだというのが、うちの研究所の実験結果です。ツールへの強迫観念が強すぎます。3.5に比べて退化だと見ています。
Q3.5バージョンをMacで動かしてみていますが、本当に以前の世代と比べて知能の向上が印象的でした。Oss 120bに追いついたのだから、言うまでもありません。