- Qwen3.6-Plusの後継として、前作比でエージェント型コーディング、より強力な世界知識、指示追従性能が向上
- 6つの主要コーディングベンチマークで最高スコアを記録し、コーディングエージェント性能の大幅な向上を確認
- preserve_thinking機能をサポートし、エージェント型タスク時に前ターンの思考過程をメッセージに保持する方式を使用
- 世界知識ベンチマークではSuperGPQA +2.3、QwenChineseBench +5.3など改善され、指示追従ではToolcallFormatIFBench +2.8を記録
- Qwen Studioで対話型テストが可能で、Alibaba Cloud Model Studio APIを通じて
qwen3.6-max-previewとして呼び出し予定
主な改善点
- Qwen3.6-Plus比でエージェント型コーディング能力が大幅に向上: SkillsBench +9.9, SciCode +6.3, NL2Repo +5.0, Terminal-Bench 2.0 +3.8
- **世界知識(world knowledge)**を強化: SuperGPQA +2.3, QwenChineseBench +5.3
- **指示追従(instruction following)**を改善: ToolcallFormatIFBench +2.8
- 6つの主要コーディングベンチマークで最高スコアを達成: SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench, SciCode
モデルの特徴とアプローチ
- Alibaba Cloud Model Studioを通じて提供されるホスティング専用モデル
- 実世界エージェント(real-world agent)および**知識信頼性(knowledge reliability)**の性能向上
- Qwen Studioですぐに対話型テストが可能
- APIモデル名は
qwen3.6-max-previewで、Alibaba Cloud Model Studio APIで近日利用可能
API利用と機能
- OpenAI互換のchat completionsおよびresponses API、Anthropic互換インターフェースなど業界標準プロトコルをサポート
preserve_thinking機能により、前ターンの**推論過程(reasoning content)**を保持でき、エージェント型タスクに推奨enable_thinking: True設定時、推論内容と応答をストリーミング方式で分離して受信可能- APIの地域別Base URLを提供: 北京、シンガポール、米国(バージニア)
開発状況
- 現在はプレビューリリース段階で継続的に反復改善中であり、今後のバージョンで追加改善を予定
1件のコメント
Hacker Newsの意見
みんながSOTA比較にばかり執着しているのは、ちょっと滑稽に感じる。自分は glm 5.1 が Opus にはできなかったことをやってのけた場面を見たし、コードもよりうまく書くのを経験した。qwen max はまだ使っていないが、ローカルの 122b モデルが文書をよりよく読み、より正確に処理する様子も見た。結局、ベンチマークは一部にすぎず、実際にはモデルごとに強みが違うのだから、ハンマーとレンチを単純な優劣で比べるように語るべきではないと思う
会社でここ数か月ずっと Claude Code を使っていて、少し前には小さな個人 Web サイトのプロジェクトにも活用した。先週末には初めて self-hosting も試してみた。同じように CC や Codex を十分使ったうえで、ある程度満足できる自前ホスティング構成を見つけた人がいるのか気になる。自分は 32GB DDR5、AMD 7800X3D、RTX 4090、Windows と WSL 環境で ollama、docker desktop model runner、pi-coding-agent、opencode と Gemma 4、Qwen、GLM-5.1 の組み合わせをあれこれ試した。基本の RAM 使用量がすでに高く、Gemma4-31B のような良いモデルは動かせなかった。Windows 単独環境ではファイルパス処理がたびたびおかしくなり、WSL で pi や opencode を動かし、モデルは docker desktop で駆動する方式はある程度うまくいった。ただ、実際の体感性能は CC に比べて遅すぎたし、ツールの完成度も CC harness のほうがずっと高く感じた。設定に時間をかけすぎて実際の利用は長くできなかったが、それでも面白い実験ではあった
この分野は、まず無料で配って名前を広めて、あとで全部 proprietary に変えていく流れのように見えて心配だ。それでも open weights は出続けてほしい。誰も open weights を出さなくなる日が来たら本当にやるせないと思う。そんな世界になれば、普通の人が自分のcomputeを直接所有するのはもっと難しくなりそうだ
今日 Kimi K2.6 も一緒に出たので、両者を比べるのはかなり自然だと思う。価格だけ見ても Qwen は入力 1.3 ドル、出力 7.8 ドルなのに対し、Kimi は入力 0.95 ドル、出力 4 ドルなので Qwen のほうが高く見える。発表記事で重なっているベンチマークも 2 つしかないが、SWE-Bench Pro と Terminal-Bench 2.0 のどちらでも Kimi が Qwen をやや上回っていた。もちろんモデルごとに強みが違い、ベンチマークがすべてではないが、数字だけを基準にすれば Kimi のほうが魅力的に感じられる
この発表の皮肉は、名前そのものにあるように思う。Max-Preview は proprietary で cloud-only だ。自分から見ると、本当に重要な Qwen は人々が自分のハードウェアで回している open weights のシリーズだ。自分は dual A4000 で 32B と 72B をローカルで動かしている。hosted Max との差はまだあるが、リリースのたびにその差が縮まっているのがわかる。だから本当に興味深い問いは、Max が Opus とどう比べられるかではなく、open-weight tier がいつごろ大半のワークロードで cloud tier を無意味にするのか、という点だ
みんなが SOTA ばかり追いかけている間、自分は MiniMax M2.5 で並列セッションをいくつも回しながら、月 10 ドルでコーディング作業を全部こなしていて、制限にもほとんど引っかかっていない
自分は Qwen の context caching ドキュメント も見て、Opus、Codex、Qwen を一緒に試したが、Qwen が多くのコーディング作業で強いのは確かだと感じた。ただ、自分がいちばん気にしているのは 長時間セッション での振る舞いだ。Qwen は大きなコンテキストウィンドウを売りにしているが、実際の長文脈効率は context caching の方式に大きく左右されるように思う。公式ドキュメントでは implicit、explicit caching の両方を提供しているが、TTL は数分レベルと短く、prefix ベースの一致や最小トークン条件のような制約がある。こうした制約のため、コーディングエージェントのように文脈が継続的に膨らむワークフローでは、キャッシュの再利用が期待ほどうまくいかないことがある。だからトークン単価は低く見えても、長いセッションでは cache hit rate が下がって再計算が増え、体感コストが高く感じられることがある。それでもセキュリティ関連の作業では、個人的に Qwen が Opus よりうまくやった場合もあった。自分の経験では、Qwen は個々のメソッドや関数単位のような短い作業では Opus よりはるかに優れているが、全体的なコーディング体験としては Claude のような自律的な end-to-end コーディングアシスタントというより、関数単位のジェネレーターに近く感じられた
Qwen 側が Opus 4.5 と比較しているのを見ると、それを善意で受け取るのは少し難しい。Opus 4.7 が最新すぎて外れたのは理解できるとしても、Opus 4.6 は出てからかなり経っているからだ
最近の中国プロバイダーを見ていると、パターンがあるように感じる。ひとつはモデルを closed source のままにしておく方向へ向かっていること、もうひとつは価格をかなり大きく引き上げていることだ。場合によっては 100% 近く上がることもある
面白いのは、ローカル実行できる Qwen モデル群については一通り知っていても、クラウドモデル側はまったく知らないということがあり得る点だ。自分は 3.5 系列と 3.6 を 1 つ知っているくらいで、Plus という名前は今回初めて見た