- 270億パラメータのdenseマルチモーダルモデルとして公開され、単一の統合チェックポイントでthinking・non-thinkingモードと画像・動画処理をあわせてサポート
- agentic coding性能が主要なコーディングベンチマーク全般で前世代のオープンソースフラッグシップQwen3.5-397B-A17Bを上回り、総パラメータ数が最大15倍大きいモデル群まで凌駕
- SWE-bench Verified 77.2、SWE-bench Pro 53.5、Terminal-Bench 2.0 59.3、SkillsBench 48.2を記録し、GPQA Diamond 87.8、AIME26 94.1などテキスト推論やSTEM評価の数値も公開
- denseアーキテクチャ採用によりMoEルーティングの複雑さがなく、デプロイが簡単で、open weights、API、Qwen Studioですぐ使える導線とOpenClaw・Qwen Code・Claude Code統合対応を提供
- よく学習されたdenseモデルが開発者の中核作業で、はるかに大きい前世代を上回れることを示し、Qwen3.6系のagentic coding拡大にもつながる
概要
- Qwen3.6-27Bは270億パラメータのdenseマルチモーダルモデルとして公開され、マルチモーダルthinkingモードとnon-thinkingモードの両方をサポート
- agentic coding性能で、前世代のオープンソースフラッグシップであるQwen3.5-397B-A17Bを主要コーディングベンチマーク全般で上回る
- MoEルーティングの複雑さがないdenseアーキテクチャの採用によりデプロイが簡単で、実用的かつ広く配備可能な規模で上位クラスのコーディング性能を提供
- Qwen Studioですぐに利用可能で、コミュニティ向けopen weightsとAPIアクセス経路もあわせて提供
- 中核特性としてフラッグシップ級のagentic coding、強いテキスト推論、マルチモーダル推論能力を含む
性能
- Qwen3.6-27BはdenseおよびMoEの基準モデルに対する総合評価が提示されており、agentic codingベンチマークで大幅な向上を記録
- 総パラメータ数が最大15倍大きいモデル群まで上回ったと明記
- 評価項目は言語、知識、STEMおよび推論、ビジョン・ランゲージ、文書理解、動画理解、visual agentで構成
-
言語
- 270億パラメータだけで主要コーディングベンチマークすべてにおいてQwen3.5-397B-A17Bを上回る
- SWE-bench Verified 77.2 対 76.2
- SWE-bench Pro 53.5 対 50.9
- Terminal-Bench 2.0 59.3 対 52.5
- SkillsBench 48.2 対 30.0
- 同規模の他のdenseモデルも大差で上回る
- 推論課題ではGPQA Diamond 87.8点を記録し、自社モデルより数倍大きいモデル群と競争可能な数値
- 詳細表にはQwen3.5-27B、Qwen3.5-397B-A17B、Gemma4-31B、Claude 4.5 Opus、Qwen3.6-35B-A3B、Qwen3.6-27Bの比較を含む
- Coding Agent項目の主要数値
- SWE-bench Multilingual 71.3
- QwenWebBench 1487
- NL2Repo 36.2
- Claw-Eval Avg 72.4
- Claw-Eval Pass^3 60.6
- QwenClawBench 53.4
- Knowledge項目の主要数値
- MMLU-Pro 86.2
- MMLU-Redux 93.5
- SuperGPQA 66.0
- C-Eval 91.4
- STEMおよび推論項目の主要数値
- HLE 24.0
- LiveCodeBench v6 83.9
- HMMT Feb 25 93.8
- HMMT Nov 25 90.7
- HMMT Feb 26 84.3
- IMOAnswerBench 80.8
- AIME26 94.1
- 270億パラメータだけで主要コーディングベンチマークすべてにおいてQwen3.5-397B-A17Bを上回る
-
言語評価設定
- SWE-Bench Seriesは内部agent scaffoldとbash、file-editツールを使用し、temp 1.0、top_p 0.95、200K context window基準
- 公開SWE-bench Proセットの一部の問題タスクを修正したrefined benchmarkで、すべての基準モデルを評価
- Terminal-Bench 2.0はHarborまたはTerminus-2 harnessを使用
- 3時間timeout、32 CPU、48 GB RAM
- temp 1.0、top_p 0.95、top_k 20、max_tokens 80K、256K ctx
- 5回実行の平均
- SkillsBenchはOpenCodeで78タスクを評価
- API依存タスクを除外したself-contained subset
- 5回実行の平均
- NL2Repoの他モデル評価はClaude Codeを使用
- temp 1.0、top_p 0.95、max_turns 900
- QwenClawBenchは実ユーザー分布ベースのClaw agentベンチマーク
- temp 0.6、256K ctx
- QwenWebBenchは社内フロントエンドコード生成ベンチマーク
- ENとCNのバイリンガル構成
- Web Design、Web Apps、Games、SVG、Data Visualization、Animation、3Dの7カテゴリ
- auto-renderとマルチモーダルjudgeでコードと視覚的一致性を評価
- BTまたはElo rating systemを使用
- AIME 26はAIME 2026 IとIIをすべて使用
- スコアはQwen 3.5ノートと異なる可能性があると明記
- SWE-Bench Seriesは内部agent scaffoldとbash、file-editツールを使用し、temp 1.0、top_p 0.95、200K context window基準
-
ビジョン・ランゲージ
- Qwen3.6-27Bは単一の統合チェックポイントでビジョン・ランゲージthinkingとnon-thinkingモードの両方をサポート
- テキストに加えて画像および動画を処理可能
- マルチモーダル推論、文書理解、視覚質問応答タスクをサポート
- 比較表はQwen3.5-27B、Qwen3.5-397B-A17B、Gemma4-31B、Claude 4.5 Opus、Qwen3.6-35B-A3B、Qwen3.6-27Bを基準に提示
-
STEMおよびパズル
- MMMU 82.9
- MMMU-Pro 75.8
- MathVista mini 87.4
- DynaMath 85.6
- VlmsAreBlind 97.0
-
一般VQA
- RealWorldQA 84.1
- MMStar 81.4
- MMBench EN-DEV-v1.1 92.3
- SimpleVQA 56.1
-
文書理解
- CharXiv RQ 78.4
- CC-OCR 81.2
- OCRBench 89.4
-
空間知能
- ERQA 62.5
- CountBench 97.8
- RefCOCO avg 92.5
- EmbSpatialBench 84.6
- RefSpatialBench 70.0
-
動画理解
- VideoMME(w sub.) 87.7
- VideoMMMU 84.4
- MLVU 86.6
- MVBench 75.5
-
Visual Agent
- V* 94.7
- AndroidWorld 70.3
-
備考
- 表の**空欄(--)**は、スコアがまだないか該当しないことを意味
Qwen3.6-27Bの活用
- Alibaba Cloud Model Studio対応はまもなく提供予定と明記
- Hugging FaceとModelScopeでopen weightsを提供し、self-hosting可能
- Alibaba Cloud Model Studio API経由の利用経路と、Qwen Studioでの即時体験経路を提供
- OpenClaw、Claude Code、Qwen Codeのようなサードパーティ製コーディング補助ツールとの統合をサポート
- 開発ワークフローの簡素化とcontext-aware coding experience対応に言及
-
API利用
- 今回のリリースは**
preserve_thinking機能**をサポート - メッセージ内のすべての過去ターンで生成されたthinkingコンテンツを保持する機能で、agentic taskに推奨と明記
- 今回のリリースは**
-
Alibaba Cloud Model Studio
- OpenAI仕様と互換性のあるchat completionsおよびresponses APIをサポート
- Anthropic互換APIインターフェースもあわせてサポート
- 公式ドキュメント基準の環境変数例を提供
DASHSCOPE_API_KEYDASHSCOPE_BASE_URLDASHSCOPE_MODEL
- Base URLの地域別例も提示
- サンプルコードではデフォルトモデル名として**
qwen3.6-27b**を使用 extra_bodyにenable_thinking: Trueを含むpreserve_thinking: Trueはコメント形式で表示
- ストリーミング応答でreasoning_contentとanswer contentを分けて収集する例を含む
- 追加情報はAPI docリンクを参照するよう案内
-
Coding & Agents
- Qwen3.6-27Bはagentic coding能力を備え、OpenClaw、Claude Code、Qwen Codeとシームレスに統合可能
-
OpenClaw
- OpenClawはself-hostedのオープンソースAI coding agentで、旧称はMoltbotまたはClawdbot
- Model Studioと接続して、ターミナルで完全なagentic coding体験を提供
- スタートスクリプトにはNode.js 22+、インストールスクリプト実行、
DASHSCOPE_API_KEY設定、openclaw dashboardまたはopenclaw tui実行手順を含む - 初回利用時は
~/.openclaw/openclaw.jsonの修正が必要- ファイル全体の上書き禁止を明記
- 既存設定を保持するため必要なフィールドだけをマージ
- 設定例には
modelstudioproviderとqwen3.6-27bモデル登録を含むapiはopenai-completionsreasoning値はtrue- 入力タイプは
text、image contextWindowは131072maxTokensは16384- デフォルトprimaryモデルは
modelstudio/qwen3.6-27b
-
Qwen Code
- Qwen Codeはターミナル向けオープンソースAI agentで、Qwen Series向けに深く最適化されたツール
- スタートスクリプトにはNode.js 20+、
@qwen-code/qwen-code@latestのインストール、qwen実行手順を含む - セッション内で
/help、/authコマンドを使う例を提供 - 初回利用時にはログインプロンプトが表示され、
/authで認証方式を切り替え可能
-
Claude Code
- Qwen APIsはAnthropic API protocolもサポート
- Claude Codeのようなツールと併用できると明記
- 設定例には次の環境変数を含む
ANTHROPIC_MODEL="qwen3.6-27b"ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-27b"ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropicANTHROPIC_AUTH_TOKEN=<your_api_key>
- 実行コマンドは
claude
まとめ
- よく学習されたdenseモデルが、開発者にとって重要な課題で、はるかに大きい前世代を上回れることをQwen3.6-27Bが実証
- 270億パラメータ規模でありながらQwen3.5-397B-A17Bを主要agentic codingベンチマークすべてで上回る
- デプロイとサービスが簡単な構造で、Qwen3.6オープンソース系はQwen3.6-27Bの追加により、より幅広いモデル構成を持つようになった
4件のコメント
せめてA3Bくらいでないと、ローカルでは少し回せる程度ですね(笑)
ベンチマークは良いと言われていますが、実運用ではまだコーディングエージェントとして使えるレベルではないように見えます。
使ってみましたが、エージェント型コーディングに大きな問題はありません。 ただし、おっしゃる通り、実運用+一般的なコーディングでは、よりパラメータ数の大きいモデルに比べると劣るのは避けられません。 設定値が3.5とは異なり、
preserve_thinkingモードも追加されているので、参考にしてください。 27Bの4bit量子化程度であれば、ローカルで使うのにも問題ありませんでした。Hacker News のコメント
unsloth/Qwen3.6-27B-GGUF:Q4_K_Mをllama-serverで動かし、35B-A3B モデルは約 25 t/s だった。比較すると、A100 ではそれぞれ 41 t/s と 97 t/s くらいだった。27B はまだ長く試していないが、35B-A3B はコンテキストが 15k〜20k トークンを超えるとよく脱線した。基本的な作業は安定してさせられるが、これを frontier モデル並みだと見るのは難しい