4 ポイント 投稿者 GN⁺ 14 일 전 | 1件のコメント | WhatsAppで共有
  • 総計350億パラメータのうち30億のみが有効化される**疎な Mixture-of-Experts(MoE)**構造により、効率性と性能を同時に実現したオープンソースモデル
  • 前世代と比べてエージェント型コーディング能力が大幅に向上し、Qwen3.5-27BやGemma4-31Bのような大規模Denseモデルと競争可能な水準を示す
  • SWE-bench、Terminal-Bench、Claw-Evalなど主要なコーディングベンチマークで高スコアを記録し、マルチモーダル課題でもClaude Sonnet 4.5級の性能を達成
  • Alibaba Cloud Model Studio API、Hugging Face、ModelScopeを通じて公開重みとAPIアクセスが可能で、OpenClaw・Claude Codeなど多様なコーディングツールとの統合をサポート
  • 有効パラメータ30億で大規模モデルに匹敵する効率的なオープンモデルの新たな基準を提示

Qwen3.6-35B-A3B 概要

  • Qwen3.6-35B-A3Bは、総計350億パラメータのうち30億のみが有効化される**疎な Mixture-of-Experts(MoE)**モデルで、効率性と性能を兼ね備えたオープンソースモデル
  • 以前のバージョンであるQwen3.5-35B-A3Bより**エージェント型コーディング(agentic coding)**性能が大きく向上しており、Qwen3.5-27BやGemma4-31Bのような大規模Denseモデルと競争可能な水準を示す
  • マルチモーダル推論モードと非推論モードの両方をサポートし、Qwen Studio、API、Hugging Face、ModelScopeを通じて公開されている
  • モデルはQwen Studioで対話的に利用でき、Alibaba Cloud Model Studio API(qwen3.6-flash)経由で呼び出すか、直接ホスティング可能

性能評価

  • 言語およびコーディング性能

    • Qwen3.6-35B-A3Bは、有効パラメータ30億のみでQwen3.5-27B(Dense型270億パラメータ)を複数の主要コーディングベンチマークで上回る
    • SWE-bench Verified 73.4、Terminal-Bench 51.5、Claw-Eval平均68.7などで高得点を記録
    • QwenWebBench(ウェブコード生成ベンチマーク)では1397点を記録し、同クラスのモデルの中で最高水準
    • 一般エージェントベンチマーク(MCPMark、MCP-Atlas、WideSearchなど)でも競合モデルに対して優れた結果を示す
    • 知識および推論関連のMMLU-Pro、GPQA、AIME26などでも高い精度を維持
  • 評価環境

    • SWE-Benchシリーズは、内部エージェントスキャフォールド(bash + file-editツール)ベースで、200Kコンテキストウィンドウにおいて評価
    • Terminal-Bench 2.0は、3時間制限、32 CPU/48GB RAM環境で5回平均
    • SkillsBenchは、API依存タスクを除く78課題で評価
    • QwenClawBenchとQwenWebBenchは、内部の実利用分布ベースのベンチマークで、実際のユーザー環境を反映
  • ビジョン・言語性能

    • Qwen3.6-35B-A3Bはネイティブなマルチモーダルモデルであり、有効パラメータ30億のみでClaude Sonnet 4.5級の性能を達成
    • RefCOCO(空間認識) 92.0、ODInW13 50.8で空間知能に強みを示す
    • RealWorldQA 85.3、MMBench EN-DEV 92.8、OmniDocBench1.5 89.9など、多様なビジョン・言語課題で高スコア
    • 動画理解ベンチマーク(VideoMME、VideoMMMU、MLVUなど)でも80〜86台のスコアを維持し、安定した性能を示す

Qwen3.6-35B-A3B 活用

  • 展開とアクセス

    • Alibaba Cloud Model Studio API(qwen3.6-flash)を通じて利用可能で、Hugging FaceおよびModelScopeで公開重みをダウンロード可能
    • Qwen Studioで即座に試用でき、OpenClaw、Claude Code、Qwen Codeなどサードパーティ製コーディング支援ツールとの統合をサポート
  • API利用

    • preserve_thinking機能をサポートし、以前の対話のthinking内容を保持しながらエージェント型タスクに適する
    • Alibaba Cloud Model Studioは、OpenAIおよびAnthropic API仕様と互換性のあるchat completions APIを提供
    • サンプルコードではenable_thinkingオプションを通じて推論過程(reasoning trace)と最終回答を分けて出力可能
  • OpenClaw統合

    • Qwen3.6-35B-A3BはOpenClaw(旧Moltbot/Clawdbot)と互換性があり、Model Studioと接続してターミナルベースのエージェント型コーディング環境を提供
    • 設定ファイル(~/.openclaw/openclaw.json)にModel Studio API情報をマージして利用
    • Node.js 22以上の環境でインストールおよび実行可能
  • Qwen Code統合

    • Qwenシリーズに最適化されたQwen Code(ターミナル向けオープンソースAIエージェント)と完全互換
    • Node.js 20以上でインストール後、/authコマンドで認証手続きを実行
  • Claude Code統合

    • Anthropic APIプロトコルをサポートしており、Claude Codeでも直接利用可能
    • 環境変数としてANTHROPIC_MODEL="qwen3.6-flash"を設定した後、CLIを実行

要約と展望

  • Qwen3.6-35B-A3Bは、疎なMoE構造でも大規模Denseモデルに匹敵するエージェント型コーディングおよび推論能力を実証
  • 有効パラメータ30億で効率性と性能を両立し、マルチモーダルベンチマークでも優れた結果を示す
  • 完全なオープンソースチェックポイントとして公開され、効率的なオープンモデルの新たな基準を提示
  • QwenチームはQwen3.6オープンソースファミリーを継続的に拡張する予定であり、コミュニティからのフィードバックと活用に期待を寄せている

引用情報

1件のコメント

 
GN⁺ 14 일 전
Hacker Newsの意見
  • 自分のノートPCで Unsloth 20.9GB GGUF 版を LM Studio で動かしてみた
    モデルリンク
    驚いたことに Opus 4.7 より 自転車に乗るペリカン をうまく描けていた
    Simon Willisonの比較ポスト 参照

    • 同じモデルで再現してみた(M1 Max 64GB、90秒未満)— 結果画像
      自分の結果には空に 太陽と雲、細い緑色の線のような芝生、そして 後光のある太陽 の効果があった
      Simon の結果に似た「空気の流れ」の表現もあったが、結局重要なのはペリカンと自転車だ
    • GGUF リンクのおかげで試してみた
      Shoggoth.dbプロジェクトwiki探索 + 自動DB構築 の作業に使った
      Qwen3.5 より新しい生物の探索能力が向上しているのを実感した
      速度も約 140 token/s に上がり、RTX 4090 で メモリオフロードなし でも安定して動作した
      ただし、マルチモーダルの衝突を防ぐために --no-mmproj-offload オプションを使う必要があった
    • 「自転車に乗るペリカン」のようなテストがいつ頃役に立たなくなるのか気になる
      もともとは誰も思いつかなかった 奇妙なプロンプト でモデルの創造性を評価する意図だったのに、今では内部ベンチマークのようになってしまった感じがする
    • Qwen のフラミンゴの絵がなぜ勝ったのかわからない
      タイヤの上に座っていて、くちばしの位置もおかしく、スポークと脚の比率 も不自然だ
      サングラスも半透明で目が片方しか見えない
      かわいくはあるが、頼んでもいない 蝶ネクタイとアクセサリー のせいでむしろ減点要素だと思う
      Opus の結果のほうが派手さはないが、より正確だった
    • 画像を見るたびに world model がいまだに欠けているパズルのピースのように思える
      結局、今のモデルは 確率的な文章生成器 にすぎないという気がする
  • Qwen チームが オープンウェイト を引き続き公開しているのはありがたい
    関連ニュース1, ニュース2
    Junyang Lin など主要メンバーの離脱後もプロジェクトが続いているのは印象的だ

    • Qwen 3.6 シリーズのうちの1つにすぎない
      小型サイズのモデルは近いうちに公開される可能性が高いが、主力の397A17Bモデル は含まれていないようだ
    • 個人的には qwen-image 2.0 のオープンウェイト公開を期待している
  • Unsloth がすでに 量子化と変換 を済ませた版を出している
    Hugging Faceリンク

    • Unsloth は実験用 quants を素早く上げるが、リリース直後の版はしばしば修正される
      安定版を入手するには1週間ほど後にもう一度確認したほうがいい
      初期バグのせいで良いモデルが過小評価されることもある
    • Qwen が直接 quantized モデルを出さない理由が気になる
      量子化プロセスは複雑で品質低下のリスク があるので、元の開発者が直接やるほうがよいと思う
      間違った quant 版がモデルの評判を損ねることもありうる
    • VRAM 要件が気になる。16GB GPU でも動かせるのか知りたい
    • Qwen の標準 quantization がなぜ良くないのか、Unsloth が何者なのか、
      そして 良いフォーマットがもたらす利点 が何なのか気になる
      quantization 自体の概念もあわせて説明してくれるとありがたい
    • ollama run claude コマンドでもこのモデルを使えるのか気になる
  • Qwen チームの今回のリリースはうれしい
    小型オープンウェイトのコーディングモデル は、特定の業界(例: 金融、ヘルスケア)で
    クラウドアクセスが制限された開発チームがカスタムエージェントを作るのに有用だ
    西側ではこうした市場はほとんど扱われておらず、Mistral だけが例外のように見える

    • Mistral は 持続可能なビジネスモデル を追求している唯一の会社に見える
      他の AI 企業は短期的な収益だけを狙っているように感じる
    • 小さなオープンモデルは面白いが、大規模なホスティングモデルとは格が違う
      本格的な作業をするなら、より大きなモデルを自前で動かせるハードウェアに投資すべきだ
    • 共感はするが、こうした小型モデルは実際の産業用途としては不十分だ
      10万ドル程度の機材でも、より大きなモデルをオンプレミスで動かせる
    • オープンウェイトの競合モデルを作るのはすばらしいが、コストが高すぎる
    • 規制産業では、モデルが 悪意あるデータで学習していないことを検証 する方法が気になる
  • Qwen の 言語埋め込み特性 が興味深い
    関連分析ツイート
    Qwen は他のモデルと違って 試験中心の分布(basin) に位置しているという

  • Qwen 幹部が Twitter でどのモデルをオープンソース化してほしいかという投票をしたが、
    27B版が最も人気 だったにもかかわらず公開されなかった

    • 3.5 のときのように distillation プロセス を経て順次公開される可能性がある
      A3B 構造は蒸留が速いため、近いうちに出るかもしれない
    • 27B は dense モデル なので、マーケティング面では 35A3B より魅力が薄い
      後者のほうが速く、「賢く」感じられる
    • おそらくすぐ公開されるだろう
    • 個人的には MoE構造は非効率的 だと思う
      同じ VRAM なら 27B dense モデルのほうがより大きなコンテキストを扱え、品質も高くなるはずだ
  • ローカルテストで Qwen3.5-35B-A3B をかなり使ってきたが、
    自分の環境で動くモデルの中では最も強力だった
    特に Mudler APEX-I-QualityByteshape Q3_K_S-3.40bpw の quant 版が印象的だった
    RTX 3060 12GB 環境でメモリの余裕ができ、速度も 40 t/s 以上に向上した

    • いろいろな作業をしてみると、Qwen3.6 は 3.5 よりはるかに大きな飛躍
      以前は詰まっていたプロジェクト改善も自力でやってのける
    • どの quant 版が一番良いのか気になる
  • この種の AIソフトウェアのリリース がいちばん楽しみだ
    大げさなリスクマーケティングもなく、サブスクリプション料金もなく、純粋に試してみたいモデルだ

    • 自分も同じ考えだ。近い将来、ローカルモデルとハードウェア性能 が十分向上して、
      ほとんどのユースケースで実用的になることを願っている
  • みんなこういうローカルモデルを実際どう使っているのか気になる
    Anthropic や OpenAI のトークンを借りるのと比べてどんな価値があるのか知りたい

    • Qwen3.5-9B を ローカル OCR の表抽出 に使っている
      文書フォーマットがばらばらなので以前は複雑なルールベースのパイプラインを使っていたが、
      今では マルチモーダル能力 で言語+ビジョンの組み合わせによる抽出が可能になった
    • 自分は Frigate という FOSS NVR と一緒に Qwen3.5-4B を使っている
      映像分析には十分実用的で、テキスト要約や翻訳はより大きなモデルで処理している
      リアルタイムでなければ速度より品質が重要なので、バッチ処理 に向いている
    • 自分は トークンレンタル型モデルを永遠に使いたくない
      完全に プライベートなセルフホストモデル がほしい
      SaaS サービスの終了にうんざりしていて、LLM も結局はセルフホスティングに向かうべきだと思う
    • vLLM + qwen3-coder-next で数百万件の文書をバッチ処理した
      トークン制限や速度制限なしで GPU を 100% 活用できた
    • すべての作業に SOTA モデルが必要なわけではない
      たとえば Gemma 4 を iPhone でオフライン翻訳機として使っているが、
      Apple Translate より速く正確だ
      小さな JSON 修正作業 のような場合はローカルモデルのほうがはるかに効率的だ