- 270億パラメータのdenseマルチモーダルモデルとして公開され、単一の統合チェックポイントでthinking・non-thinkingモードと画像・動画処理をあわせてサポート
- agentic coding性能は主要なコーディングベンチマーク全般で前世代のオープンソース・フラッグシップQwen3.5-397B-A17Bを上回り、総パラメータ数が最大15倍大きいモデル群まで凌駕
- SWE-bench Verified 77.2、SWE-bench Pro 53.5、Terminal-Bench 2.0 59.3、SkillsBench 48.2を記録し、GPQA Diamond 87.8、AIME26 94.1などテキスト推論とSTEM評価の数値も公開
- denseアーキテクチャの採用によりMoEルーティングの複雑さがなく、デプロイがシンプルで、open weights、API、Qwen Studioでの即時利用経路に加え、OpenClaw・Qwen Code・Claude Codeとの統合サポートを提供
- よく学習されたdenseモデルが開発者の中核タスクにおいて、はるかに大規模な前世代を超えうることを示し、Qwen3.6系のagentic coding拡大にもつながる
概要
- Qwen3.6-27Bは270億パラメータのdenseマルチモーダルモデルとして公開され、マルチモーダルthinkingモードとnon-thinkingモードの両方をサポート
- agentic coding性能で、前世代のオープンソース・フラッグシップであるQwen3.5-397B-A17Bを主要なコーディングベンチマーク全般で上回る
- MoEルーティングの複雑さがないdenseアーキテクチャの採用によりデプロイが容易で、実用的かつ広く配備可能な規模で上位級のコーディング性能を提供
- Qwen Studioですぐに利用可能で、コミュニティ向けのopen weightsとAPIアクセス経路も提供
- 中核的な特性として、フラッグシップ級のagentic coding、強力なテキスト推論、マルチモーダル推論能力を含む
性能
- Qwen3.6-27BはdenseおよびMoEの基準モデルに対する総合評価が提示され、agentic codingベンチマークで大幅な向上を記録
- 総パラメータ数が最大15倍大きいモデルまで上回ったと明記
- 評価項目は言語、知識、STEMおよび推論、ビジョン・ランゲージ、文書理解、動画理解、visual agentで構成
-
言語
- 270億パラメータのみで主要コーディングベンチマークのすべてにおいてQwen3.5-397B-A17Bを上回る
- SWE-bench Verified 77.2 対 76.2
- SWE-bench Pro 53.5 対 50.9
- Terminal-Bench 2.0 59.3 対 52.5
- SkillsBench 48.2 対 30.0
- 同規模の他のdenseモデルも大差で上回る
- 推論課題ではGPQA Diamond 87.8点を記録し、自社より数倍大きいモデルとも競争可能な数値
- 詳細表にはQwen3.5-27B、Qwen3.5-397B-A17B、Gemma4-31B、Claude 4.5 Opus、Qwen3.6-35B-A3B、Qwen3.6-27Bの比較を含む
- Coding Agent項目の主要数値
- SWE-bench Multilingual 71.3
- QwenWebBench 1487
- NL2Repo 36.2
- Claw-Eval Avg 72.4
- Claw-Eval Pass^3 60.6
- QwenClawBench 53.4
- Knowledge項目の主要数値
- MMLU-Pro 86.2
- MMLU-Redux 93.5
- SuperGPQA 66.0
- C-Eval 91.4
- STEMおよび推論項目の主要数値
- HLE 24.0
- LiveCodeBench v6 83.9
- HMMT Feb 25 93.8
- HMMT Nov 25 90.7
- HMMT Feb 26 84.3
- IMOAnswerBench 80.8
- AIME26 94.1
- 270億パラメータのみで主要コーディングベンチマークのすべてにおいてQwen3.5-397B-A17Bを上回る
-
言語評価設定
- SWE-Bench Seriesは内部agent scaffoldとbash、file-editツールを使用し、temp 1.0、top_p 0.95、200K context window基準
- 公開SWE-bench Proセットの一部の問題タスクを修正したrefined benchmarkで、すべての基準モデルを評価
- Terminal-Bench 2.0はHarborまたはTerminus-2 harnessを使用
- 3時間timeout、32 CPU、48 GB RAM
- temp 1.0、top_p 0.95、top_k 20、max_tokens 80K、256K ctx
- 5回実行の平均
- SkillsBenchはOpenCodeで78タスクを評価
- API依存タスクを除外したself-contained subset
- 5回実行の平均
- NL2Repoの他モデル評価はClaude Codeを使用
- temp 1.0、top_p 0.95、max_turns 900
- QwenClawBenchは実ユーザー分布ベースのClaw agentベンチマーク
- temp 0.6、256K ctx
- QwenWebBenchは社内フロントエンドコード生成ベンチマーク
- ENとCNのバイリンガル構成
- Web Design、Web Apps、Games、SVG、Data Visualization、Animation、3Dの7カテゴリ
- auto-renderとマルチモーダルjudgeでコードと視覚的整合性を評価
- BTまたはElo rating systemを使用
- AIME 26はAIME 2026 IとIIを全て使用
- スコアはQwen 3.5ノートと異なる場合があると明記
- SWE-Bench Seriesは内部agent scaffoldとbash、file-editツールを使用し、temp 1.0、top_p 0.95、200K context window基準
-
ビジョン・ランゲージ
- Qwen3.6-27Bは単一の統合チェックポイントでビジョン・ランゲージthinkingとnon-thinkingモードの両方をサポート
- テキストとともに画像および動画を処理可能
- マルチモーダル推論、文書理解、視覚質問応答タスクをサポート
- 比較表はQwen3.5-27B、Qwen3.5-397B-A17B、Gemma4-31B、Claude 4.5 Opus、Qwen3.6-35B-A3B、Qwen3.6-27B基準で提示
-
STEMおよびパズル
- MMMU 82.9
- MMMU-Pro 75.8
- MathVista mini 87.4
- DynaMath 85.6
- VlmsAreBlind 97.0
-
一般VQA
- RealWorldQA 84.1
- MMStar 81.4
- MMBench EN-DEV-v1.1 92.3
- SimpleVQA 56.1
-
文書理解
- CharXiv RQ 78.4
- CC-OCR 81.2
- OCRBench 89.4
-
空間知能
- ERQA 62.5
- CountBench 97.8
- RefCOCO avg 92.5
- EmbSpatialBench 84.6
- RefSpatialBench 70.0
-
動画理解
- VideoMME(w sub.) 87.7
- VideoMMMU 84.4
- MLVU 86.6
- MVBench 75.5
-
Visual Agent
- V* 94.7
- AndroidWorld 70.3
-
備考
- 表の**空欄(--)**は、スコアがまだないか該当しないことを意味
Qwen3.6-27Bの活用
- Alibaba Cloud Model Studio対応はまもなく提供予定と明記
- Hugging FaceとModelScopeでopen weightsを提供し、self-hosting可能
- Alibaba Cloud Model Studio APIを通じた利用経路と、Qwen Studioでの即時体験経路を提供
- OpenClaw、Claude Code、Qwen Codeのようなサードパーティ製コーディング支援ツールとの統合をサポート
- 開発ワークフローの簡素化とcontext-aware coding experienceのサポートに言及
-
API利用
- 今回のリリースは**
preserve_thinking機能**をサポート - メッセージのすべての過去ターンで生成されたthinkingコンテンツを保持する機能で、agentic taskに推奨と明記
- 今回のリリースは**
-
Alibaba Cloud Model Studio
- OpenAI規格と互換性のあるchat completionsおよびresponses APIをサポート
- Anthropic互換APIインターフェースもサポート
- 公式ドキュメント基準の環境変数例を提供
DASHSCOPE_API_KEYDASHSCOPE_BASE_URLDASHSCOPE_MODEL
- Base URLの地域例も提示
- 例示コードではデフォルトのモデル名として**
qwen3.6-27b**を使用 extra_bodyにenable_thinking: Trueを含むpreserve_thinking: Trueはコメント形式で表示
- ストリーミング応答でreasoning_contentとanswer contentを分離して収集する例を含む
- 追加情報はAPI docリンクを参照するよう案内
-
Coding & Agents
- Qwen3.6-27Bはagentic coding能力を備え、OpenClaw、Claude Code、Qwen Codeとシームレスに統合可能
-
OpenClaw
- OpenClawはself-hostedのオープンソースAI coding agentで、旧名称はMoltbotまたはClawdbot
- Model Studioに接続してターミナルで完全なagentic coding体験を提供
- 開始スクリプトにはNode.js 22+、インストールスクリプト実行、
DASHSCOPE_API_KEY設定、openclaw dashboardまたはopenclaw tui実行手順を含む - 初回利用時は
~/.openclaw/openclaw.jsonの修正が必要- ファイル全体の上書きは禁止と明記
- 既存設定を保持するため必要なフィールドのみマージ
- 設定例には
modelstudioproviderとqwen3.6-27bモデル登録を含むapiはopenai-completionsreasoning値はtrue- 入力タイプは
text、image contextWindowは131072maxTokensは16384- デフォルトのprimaryモデルは
modelstudio/qwen3.6-27b
-
Qwen Code
- Qwen Codeはターミナル向けのオープンソースAI agentで、Qwen Seriesに深く最適化されたツール
- 開始スクリプトにはNode.js 20+、
@qwen-code/qwen-code@latestのインストール、qwen実行手順を含む - セッション内で
/help、/authコマンドを使う例を提供 - 初回利用時にはログインプロンプトが表示され、
/authで認証方式を切り替え可能
-
Claude Code
- Qwen APIsはAnthropic API protocolもサポート
- Claude Codeのようなツールと一緒に使えると明記
- 設定例には以下の環境変数を含む
ANTHROPIC_MODEL="qwen3.6-27b"ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-27b"ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropicANTHROPIC_AUTH_TOKEN=<your_api_key>
- 実行コマンドは
claude
まとめ
- よく学習されたdenseモデルが、開発者にとって重要な課題で、はるかに大規模な前世代を上回りうることをQwen3.6-27Bが実証
- 270億パラメータ規模でありながら、Qwen3.5-397B-A17Bを主要なagentic codingベンチマークのすべてで上回る
- デプロイとサービスがシンプルな構造で、Qwen3.6オープンソース系はQwen3.6-27Bの追加により、より広い範囲のモデル構成を備えるようになった
4件のコメント
せめてA3Bくらいでないと、ローカルでは少し回せる程度ですね(笑)
ベンチマークは良いと言われていますが、実運用ではまだコーディングエージェントとして使えるレベルではないように見えます。
使ってみましたが、エージェント型コーディングに大きな問題はありません。 ただし、おっしゃる通り、実運用+一般的なコーディングでは、よりパラメータ数の大きいモデルに比べると劣るのは避けられません。 設定値が3.5とは異なり、
preserve_thinkingモードも追加されているので、参考にしてください。 27Bの4bit量子化程度であれば、ローカルで使うのにも問題ありませんでした。Hacker News のコメント
unsloth/Qwen3.6-27B-GGUF:Q4_K_Mをllama-serverで動かし、35B-A3B モデルは約 25 t/s だった。比較すると、A100 ではそれぞれ 41 t/s と 97 t/s くらいだった。27B はまだ長く試していないが、35B-A3B はコンテキストが 15k〜20k トークンを超えるとよく脱線した。基本的な作業は安定してさせられるが、これを frontier モデル並みだと見るのは難しい