Qwen3.6-35B-A3B: すべてのユーザーに向けてエージェント型コーディング性能を公開

(qwen.ai)

4 ポイント投稿者 GN⁺ 14 일 전 | 1件のコメント | WhatsAppで共有

総計350億パラメータのうち30億のみが有効化される**疎な Mixture-of-Experts(MoE)**構造により、効率性と性能を同時に実現したオープンソースモデル
前世代と比べてエージェント型コーディング能力が大幅に向上し、Qwen3.5-27BやGemma4-31Bのような大規模Denseモデルと競争可能な水準を示す
SWE-bench、Terminal-Bench、Claw-Evalなど主要なコーディングベンチマークで高スコアを記録し、マルチモーダル課題でもClaude Sonnet 4.5級の性能を達成
Alibaba Cloud Model Studio API、Hugging Face、ModelScopeを通じて公開重みとAPIアクセスが可能で、OpenClaw・Claude Codeなど多様なコーディングツールとの統合をサポート
有効パラメータ30億で大規模モデルに匹敵する効率的なオープンモデルの新たな基準を提示

Qwen3.6-35B-A3B 概要

Qwen3.6-35B-A3Bは、総計350億パラメータのうち30億のみが有効化される**疎な Mixture-of-Experts(MoE)**モデルで、効率性と性能を兼ね備えたオープンソースモデル
以前のバージョンであるQwen3.5-35B-A3Bより**エージェント型コーディング(agentic coding)**性能が大きく向上しており、Qwen3.5-27BやGemma4-31Bのような大規模Denseモデルと競争可能な水準を示す
マルチモーダル推論モードと非推論モードの両方をサポートし、Qwen Studio、API、Hugging Face、ModelScopeを通じて公開されている
モデルはQwen Studioで対話的に利用でき、Alibaba Cloud Model Studio API(qwen3.6-flash)経由で呼び出すか、直接ホスティング可能

性能評価

言語およびコーディング性能
- Qwen3.6-35B-A3Bは、有効パラメータ30億のみでQwen3.5-27B(Dense型270億パラメータ)を複数の主要コーディングベンチマークで上回る
- SWE-bench Verified 73.4、Terminal-Bench 51.5、Claw-Eval平均68.7などで高得点を記録
- QwenWebBench(ウェブコード生成ベンチマーク)では1397点を記録し、同クラスのモデルの中で最高水準
- 一般エージェントベンチマーク(MCPMark、MCP-Atlas、WideSearchなど)でも競合モデルに対して優れた結果を示す
- 知識および推論関連のMMLU-Pro、GPQA、AIME26などでも高い精度を維持
評価環境
- SWE-Benchシリーズは、内部エージェントスキャフォールド(bash + file-editツール)ベースで、200Kコンテキストウィンドウにおいて評価
- Terminal-Bench 2.0は、3時間制限、32 CPU/48GB RAM環境で5回平均
- SkillsBenchは、API依存タスクを除く78課題で評価
- QwenClawBenchとQwenWebBenchは、内部の実利用分布ベースのベンチマークで、実際のユーザー環境を反映
ビジョン・言語性能
- Qwen3.6-35B-A3Bはネイティブなマルチモーダルモデルであり、有効パラメータ30億のみでClaude Sonnet 4.5級の性能を達成
- RefCOCO(空間認識) 92.0、ODInW13 50.8で空間知能に強みを示す
- RealWorldQA 85.3、MMBench EN-DEV 92.8、OmniDocBench1.5 89.9など、多様なビジョン・言語課題で高スコア
- 動画理解ベンチマーク(VideoMME、VideoMMMU、MLVUなど)でも80〜86台のスコアを維持し、安定した性能を示す

Qwen3.6-35B-A3B 活用

展開とアクセス
- Alibaba Cloud Model Studio API(qwen3.6-flash)を通じて利用可能で、Hugging FaceおよびModelScopeで公開重みをダウンロード可能
- Qwen Studioで即座に試用でき、OpenClaw、Claude Code、Qwen Codeなどサードパーティ製コーディング支援ツールとの統合をサポート
API利用
- preserve_thinking機能をサポートし、以前の対話のthinking内容を保持しながらエージェント型タスクに適する
- Alibaba Cloud Model Studioは、OpenAIおよびAnthropic API仕様と互換性のあるchat completions APIを提供
- サンプルコードではenable_thinkingオプションを通じて推論過程(reasoning trace)と最終回答を分けて出力可能
OpenClaw統合
- Qwen3.6-35B-A3BはOpenClaw(旧Moltbot/Clawdbot)と互換性があり、Model Studioと接続してターミナルベースのエージェント型コーディング環境を提供
- 設定ファイル(~/.openclaw/openclaw.json)にModel Studio API情報をマージして利用
- Node.js 22以上の環境でインストールおよび実行可能
Qwen Code統合
- Qwenシリーズに最適化されたQwen Code(ターミナル向けオープンソースAIエージェント)と完全互換
- Node.js 20以上でインストール後、/authコマンドで認証手続きを実行
Claude Code統合
- Anthropic APIプロトコルをサポートしており、Claude Codeでも直接利用可能
- 環境変数としてANTHROPIC_MODEL="qwen3.6-flash"を設定した後、CLIを実行

要約と展望

Qwen3.6-35B-A3Bは、疎なMoE構造でも大規模Denseモデルに匹敵するエージェント型コーディングおよび推論能力を実証
有効パラメータ30億で効率性と性能を両立し、マルチモーダルベンチマークでも優れた結果を示す
完全なオープンソースチェックポイントとして公開され、効率的なオープンモデルの新たな基準を提示
QwenチームはQwen3.6オープンソースファミリーを継続的に拡張する予定であり、コミュニティからのフィードバックと活用に期待を寄せている

引用情報

@misc{qwen36_35b_a3b, title = {Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All}, url = {https://qwen.ai/blog?id=qwen3.6-35b-a3b}, author = {Qwen Team}, month = {April}, year = {2026}}

1件のコメント

GN⁺ 14 일 전

Hacker Newsの意見

自分のノートPCで Unsloth 20.9GB GGUF 版を LM Studio で動かしてみた
モデルリンク
驚いたことに Opus 4.7 より 自転車に乗るペリカン をうまく描けていた
Simon Willisonの比較ポスト参照
- 同じモデルで再現してみた（M1 Max 64GB、90秒未満）— 結果画像
  自分の結果には空に 太陽と雲、細い緑色の線のような芝生、そして 後光のある太陽 の効果があった
  Simon の結果に似た「空気の流れ」の表現もあったが、結局重要なのはペリカンと自転車だ
- GGUF リンクのおかげで試してみた
  Shoggoth.dbプロジェクトで wiki探索 + 自動DB構築 の作業に使った
  Qwen3.5 より新しい生物の探索能力が向上しているのを実感した
  速度も約 140 token/s に上がり、RTX 4090 で メモリオフロードなし でも安定して動作した
  ただし、マルチモーダルの衝突を防ぐために --no-mmproj-offload オプションを使う必要があった
- 「自転車に乗るペリカン」のようなテストがいつ頃役に立たなくなるのか気になる
  もともとは誰も思いつかなかった 奇妙なプロンプト でモデルの創造性を評価する意図だったのに、今では内部ベンチマークのようになってしまった感じがする
- Qwen のフラミンゴの絵がなぜ勝ったのかわからない
  タイヤの上に座っていて、くちばしの位置もおかしく、スポークと脚の比率 も不自然だ
  サングラスも半透明で目が片方しか見えない
  かわいくはあるが、頼んでもいない 蝶ネクタイとアクセサリー のせいでむしろ減点要素だと思う
  Opus の結果のほうが派手さはないが、より正確だった
- 画像を見るたびに world model がいまだに欠けているパズルのピースのように思える
  結局、今のモデルは 確率的な文章生成器 にすぎないという気がする
Qwen チームが オープンウェイト を引き続き公開しているのはありがたい
関連ニュース1, ニュース2
Junyang Lin など主要メンバーの離脱後もプロジェクトが続いているのは印象的だ
- Qwen 3.6 シリーズのうちの1つにすぎない
  小型サイズのモデルは近いうちに公開される可能性が高いが、主力の397A17Bモデル は含まれていないようだ
- 個人的には qwen-image 2.0 のオープンウェイト公開を期待している
Unsloth がすでに 量子化と変換 を済ませた版を出している
Hugging Faceリンク
- Unsloth は実験用 quants を素早く上げるが、リリース直後の版はしばしば修正される
  安定版を入手するには1週間ほど後にもう一度確認したほうがいい
  初期バグのせいで良いモデルが過小評価されることもある
- Qwen が直接 quantized モデルを出さない理由が気になる
  量子化プロセスは複雑で品質低下のリスク があるので、元の開発者が直接やるほうがよいと思う
  間違った quant 版がモデルの評判を損ねることもありうる
- VRAM 要件が気になる。16GB GPU でも動かせるのか知りたい
- Qwen の標準 quantization がなぜ良くないのか、Unsloth が何者なのか、
  そして 良いフォーマットがもたらす利点 が何なのか気になる
  quantization 自体の概念もあわせて説明してくれるとありがたい
- ollama run claude コマンドでもこのモデルを使えるのか気になる
Qwen チームの今回のリリースはうれしい
小型オープンウェイトのコーディングモデル は、特定の業界（例: 金融、ヘルスケア）で
クラウドアクセスが制限された開発チームがカスタムエージェントを作るのに有用だ
西側ではこうした市場はほとんど扱われておらず、Mistral だけが例外のように見える
- Mistral は 持続可能なビジネスモデル を追求している唯一の会社に見える
  他の AI 企業は短期的な収益だけを狙っているように感じる
- 小さなオープンモデルは面白いが、大規模なホスティングモデルとは格が違う
  本格的な作業をするなら、より大きなモデルを自前で動かせるハードウェアに投資すべきだ
- 共感はするが、こうした小型モデルは実際の産業用途としては不十分だ
  10万ドル程度の機材でも、より大きなモデルをオンプレミスで動かせる
- オープンウェイトの競合モデルを作るのはすばらしいが、コストが高すぎる
- 規制産業では、モデルが 悪意あるデータで学習していないことを検証 する方法が気になる
Qwen の 言語埋め込み特性 が興味深い
関連分析ツイート
Qwen は他のモデルと違って 試験中心の分布（basin） に位置しているという
Qwen 幹部が Twitter でどのモデルをオープンソース化してほしいかという投票をしたが、
27B版が最も人気 だったにもかかわらず公開されなかった
- 3.5 のときのように distillation プロセス を経て順次公開される可能性がある
  A3B 構造は蒸留が速いため、近いうちに出るかもしれない
- 27B は dense モデル なので、マーケティング面では 35A3B より魅力が薄い
  後者のほうが速く、「賢く」感じられる
- おそらくすぐ公開されるだろう
- 個人的には MoE構造は非効率的 だと思う
  同じ VRAM なら 27B dense モデルのほうがより大きなコンテキストを扱え、品質も高くなるはずだ
ローカルテストで Qwen3.5-35B-A3B をかなり使ってきたが、
自分の環境で動くモデルの中では最も強力だった
特に Mudler APEX-I-Quality と Byteshape Q3_K_S-3.40bpw の quant 版が印象的だった
RTX 3060 12GB 環境でメモリの余裕ができ、速度も 40 t/s 以上に向上した
- いろいろな作業をしてみると、Qwen3.6 は 3.5 よりはるかに大きな飛躍 だ
  以前は詰まっていたプロジェクト改善も自力でやってのける
- どの quant 版が一番良いのか気になる
この種の AIソフトウェアのリリース がいちばん楽しみだ
大げさなリスクマーケティングもなく、サブスクリプション料金もなく、純粋に試してみたいモデルだ
- 自分も同じ考えだ。近い将来、ローカルモデルとハードウェア性能 が十分向上して、
  ほとんどのユースケースで実用的になることを願っている
みんなこういうローカルモデルを実際どう使っているのか気になる
Anthropic や OpenAI のトークンを借りるのと比べてどんな価値があるのか知りたい
- Qwen3.5-9B を ローカル OCR の表抽出 に使っている
  文書フォーマットがばらばらなので以前は複雑なルールベースのパイプラインを使っていたが、
  今では マルチモーダル能力 で言語+ビジョンの組み合わせによる抽出が可能になった
- 自分は Frigate という FOSS NVR と一緒に Qwen3.5-4B を使っている
  映像分析には十分実用的で、テキスト要約や翻訳はより大きなモデルで処理している
  リアルタイムでなければ速度より品質が重要なので、バッチ処理 に向いている
- 自分は トークンレンタル型モデルを永遠に使いたくない
  完全に プライベートなセルフホストモデル がほしい
  SaaS サービスの終了にうんざりしていて、LLM も結局はセルフホスティングに向かうべきだと思う
- vLLM + qwen3-coder-next で数百万件の文書をバッチ処理した
  トークン制限や速度制限なしで GPU を 100% 活用できた
- すべての作業に SOTA モデルが必要なわけではない
  たとえば Gemma 4 を iPhone でオフライン翻訳機として使っているが、
  Apple Translate より速く正確だ
  小さな JSON 修正作業 のような場合はローカルモデルのほうがはるかに効率的だ

Qwen3.6-35B-A3B: すべてのユーザーに向けてエージェント型コーディング性能を公開

Qwen3.6-35B-A3B 概要

性能評価

言語およびコーディング性能

評価環境

ビジョン・言語性能

Qwen3.6-35B-A3B 活用

展開とアクセス

API利用

OpenClaw統合

Qwen Code統合

Claude Code統合

要約と展望

引用情報

関連記事

1件のコメント

Hacker Newsの意見