アリババのオープンソース Qwen3.5-Medium モデル、ローカルで Sonnet 4.5 級の性能を提供

(venturebeat.com)

22 ポイント投稿者 GN⁺ 2026-03-02 | 4件のコメント | WhatsAppで共有

Qwen3.5 シリーズは、35B、122B、27B など4つの大規模言語モデルで構成され、そのうち3つは Apache 2.0 オープンソースライセンスで公開
ベンチマークでは OpenAI GPT-5-mini と Anthropic Claude Sonnet 4.5 を上回る性能を示し、ローカル GPU 環境でも高性能に実行可能
**4ビット量子化（quantization）**により精度をほぼ維持したまま、100万トークン超のコンテキストウィンドウをサポートし、デスクトップ GPU でも大規模データ処理が可能
Gated Delta Networks と Mixture-of-Experts（MoE） 構造を組み合わせて効率を高め、「Thinking Mode」 を通じて内部推論プロセスを経てから回答を生成
企業はこれにより、プライバシー保護型のオンプレミス AI 構築が可能になり、高コストなクラウド依存なしで 自律型エージェント開発を実現できる

Qwen3.5-Medium モデル概要

アリババの Qwen AI チームが公開した Qwen3.5-Medium シリーズは、エージェント型ツール呼び出し（agentic tool calling） をサポートする4つの LLM で構成
- 公開モデル: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- 独自モデル: Qwen3.5-Flash（Alibaba Cloud Model Studio API 専用）
3つのオープンソースモデルは Hugging Face と ModelScope からダウンロード可能
Qwen3.5-Flash は商用 API 形式で提供され、西側モデルと比べて 運用コストが低い

性能と技術構造

Qwen3.5 モデルは、ベンチマークで OpenAI GPT-5-mini と Claude Sonnet 4.5 を上回る
量子化（quantization） 後も高い精度を維持し、ローカル GPU（32GB VRAM） 環境で 100万トークン超のコンテキストウィンドウをサポート
4ビット重みおよび KV キャッシュ量子化 により、精度を損なわず大規模データ処理が可能
ハイブリッドアーキテクチャ: Gated Delta Networks + Sparse Mixture-of-Experts（MoE）
- 総 350 億パラメータのうち 3億個のみが活性化
- MoE 層は 256 個のエキスパート（8 個のルーティング + 1 個の共有） で構成
- 4ビット圧縮時でも精度を維持し、ローカル展開時のメモリを節約
研究支援のため Qwen3.5-35B-A3B-Base モデルもあわせて公開

製品構成と機能

Thinking Mode: モデルが回答前に `` タグで内部推論プロセスを生成
モデル別の特徴
- Qwen3.5-27B: 効率性重視、80万トークン超のコンテキストをサポート
- Qwen3.5-Flash: 100万トークンの基本コンテキスト、公式ツールを内蔵
- Qwen3.5-122B-A10B: サーバークラス GPU（80GB VRAM）向け、100万超コンテキストをサポート
ベンチマーク結果: Qwen3.5-35B-A3B は、Qwen3-235B、GPT-5-mini、Sonnet 4.5 より 知識（MMMLU） および 視覚推論（MMMU-Pro） 項目で優れる

価格と API 統合

Qwen3.5-Flash API 料金
- 入力: $0.1 / 100万トークン
- 出力: $0.4 / 100万トークン
- キャッシュ生成: $0.125 / 100万トークン
- キャッシュ読み取り: $0.01 / 100万トークン
ツール呼び出し料金: Web Search $10/1,000 回、Code Interpreter 無料（期間限定）
主要 LLM と比較して 最も安価な API の1つ
- 例: Claude Sonnet 4.5 は合計 $18/100万トークン、GPT-5.2 は $15.75、Qwen3.5-Flash は $0.5

企業活用と意味

Qwen3.5-Medium の公開により、大規模研究所レベルのモデル微調整と展開が一般企業でも可能に
オンプレミス環境で大容量ドキュメント・動画分析を実行でき、データプライバシーを強化
Mixture-of-Experts 構造を社内ファイアウォール内で実行し、データ主権を維持
Thinking Mode と Tool Calling 機能を活用して、自律型 AI エージェント構築が可能
初期ユーザーは「大規模クローズドモデルとの格差を縮めた」と評価
効率性重視の設計により、AI 統合における コスト削減・セキュリティ強化・運用俊敏性の確保が可能

4件のコメント

chcv0313 2026-03-02

RTX Pro 6000（96GB、実質的には94GB）を所有していますが、ollamaで122Bモデルが立ち上がりません。ビジョンモデルなので、ビジョントランスフォーマーが入っている部分のせいかもしれません。GPT OSS 120bモデルは余裕で動くのですが。

ng0301 2026-03-02

そうですね……ビジョンエンコーダーが使われると、1BモデルでもVRAMを9GB食いますね

kensin2 2026-03-02

CUDAベースの llama.cpp サーバーで動かさないと性能が出ません。

GN⁺ 2026-03-02

Hacker Newsの意見

オープンソースモデルの多くは ベンチマーク最適化ゲーム をしている
新しく公開されるモデルはどれも数か月前のSOTA水準だと宣伝されるが、実際に使ってみるとがっかりすることが多い
Qwen3-Coder-NextとQwen3.5を使ってみたが、Sonnet 4.5の水準には及ばない
ただし、目標を明確に示してテストで制約を与えると、粘り強く試行し、最終的には問題を解決することはある
それでもオープンソースモデルとしては印象的で、self-hosted環境 でここまでできるのは驚くべきことだ
しかし、Sonnet 4.5級という誇大広告は信じるべきではない
- 私の経験では、一部のオープンソースモデルは本当に 強力で実用的 だ
  特に StepFun-3.5-flash は複雑なRustコードベースでも見事に動く
  私はStepFunとは何の関係もないが、196B/11B構成でこの性能を出したチームには深い敬意を抱く
- 「前世代」のモデルが依然としてオープンソースより優れてはいるが、GLM-5のようなモデルはパターンマッチング能力をうまく捉えているようだ
  モデル同士を競わせる GertLabsベンチマークは操作しにくいため、かなり信頼できる
- 実際のところ、この種のベンチマーク最適化は すべてのモデル がやっていることだ
  むしろクラウドモデルのほうがランタイムまで調整できるので、さらにひどい可能性もある
- 私はQwen 3.5 27Bを4090で動かしているが、ローカルモデルでこれほど コーディング性能 が高いのは初めて見た
  以前はほとんど使いものにならなかったが、今回は本当に驚いた
- 最新の オフライン/プライベートコーディングベンチマーク があるのか気になっていたが、Apex Testing はかなり良さそうだ
  標準的な問題とは異なるテストなら、過剰最適化にも強そうだ
MBP M3 Max 128Gでローカルモデルを動かしながら性能を比較している
Opus 4.6とGemini Proは速くて正確だったが、qwen3.5:35b-a3bは45分間動き続けた末に不正確な回答を出した
ファンの騒音がひどく、飛行機の離陸並みだった
こんなに遅いモデルで 大規模コードベース を扱えるのか疑問だ
- そもそも100Bパラメータ級のオープンモデルをノートPCで動かすことには限界がある
  クラウドモデルは1T以上のパラメータを、数百万ドル級のGPUで動かしているからだ
  ローカルコーディングは「Androidアプリのボイラープレート生成」程度が現実的な水準だ
- OpusやGeminiは数百万ドル級のH200クラスGPUで動いている
  ローカルモデルは依然として 二世代前の性能 水準であり、Sonnet 4.5級だとしてもOpus 4.6とは大きな差がある
- 業界は「大きいモデルほど常に優れている」という 論理的誤り に陥っている
  実際には、狭い問題に特化した小さなモデルのほうがうまく動く場合がある
  私たちのチームはコーディングだけに集中する小型モデルをM2 16GBで動かしており、Sonnet 4.5より優れていると考えている
  近くrig.aiのベータ版を公開する予定だ
- MacBookは 熱制約 が厳しいため、長時間作業には不向きだ
  サーバーでもファン速度を100%に固定するとGPU性能が30%向上する
  ローカルモデルは軽い作業に向いており、重い処理はクラウドで行うほうが効率的だ
- qwen3.5-35b-a3bは コンテキストが短いとき に推論へ時間をかける傾向がある
  長いシステムプロンプトやファイル内容を与えると、ずっと効率的になるという報告がある
M1 MacBook Proでllama.cpp、OpenCode、Qwen3-Coder-30B-A3B-Instruct（GGUF、Q4_K_M量子化）をセットアップするガイドを書いた
導入はかなり面倒だったが、最新モデルにも適用できる
インストールガイドのリンク
- LM Studioを使えば 1回の検索とクリック でインストールでき、OpenAI互換APIとして公開される
- Ryzen 32GBデスクトップでも同じセットアップをしたが、Qwenが最も印象的だった
  MoE構造のおかげで推論速度も速い
  Q4_K_M量子化を選んだが、これが最適な選択なのか気になる
- 16GB RAMでも実用になるローカルモデルが出てくるのを待っている
- M1での 実行速度 がどの程度なのか気になる
LLMの内部を学び始めたのだが、float32があまりにも 寛容な精度 だと気づいた
ブログを通じて量子化を学び、Claudeに1〜8ビット量子化の精度を分析させた
4ビットは99%の類似度でほとんど損失がなく、しかも8ビットの半分のサイズなので sweet spot のように見えた
実際の専門家たちも4ビットを使っているのを見ると興味深い
- 最新のNVIDIAハードウェアでは 4ビット学習 もサポートされている
  GPT-OSSモデルはMXFP4形式で訓練された
  OCP標準化文書、MXフォーマット仕様
- 三値（ternary）モデル の研究も興味深い
  演算が非常に高速で、キャッシュ効率も高いため、探究する価値がある
- 関連資料をもっと学びたいのだが、参考になるリソースがあるのか気になる
- 1%の精度差が実際にどのような 認知的効果 を生むのか感覚がつかめない
  システムがあまりにもブラックボックスなので、直感的に把握しにくい
Qwen3.5 122BをLM StudioとOpencodeで動かしてみたが、かなり印象的だった
M4 Max/128GB環境でも遅くなく、Claude Codeレベルのコード分析力 を見せた
完全ローカルな代替手段がここまで進化したことに驚いた
オープンモデルはどんどん良くなっているが、まだSonnet 4.5の水準ではない
狭いドメイン では素晴らしいが、曖昧な問題を解くのは苦手だ
Qwen 3.5はこれまで使ったOSSの中で最高で、徐々に本物の知能を見せ始めている
RTX 6000 Proで無料で動かしているが、Composer 1.5をもっと頻繁に使っている
それでも今年中にローカルGPT 5.2級モデルが出ることを期待している
誇張された主張が多い
実際に使った人は少なく、現実的な基準 が不足していることが多い
以前は「数Kトークン以上は使えない」という但し書きがいつも付いていた
- Qwen 3.5 122B/a10B（q3、unsloth dynamic quant）で RPN電卓Webアプリ を作ったが、ローカルモデルで初めて完全に動作した
  他のモデルはスタック実装が間違っていたり、UIがひどかったりした
  Claude Sonnet 4.6もこの問題は正しく解けたが、それ以外はほとんど失敗した
- Qwen3-Coder-30B-A3B-InstructはIDE統合や小さな関数単位の作業には良いが、大規模機能の実装 には限界がある
- 35Bモデルで PolarsベースのPCA実装 を10分で完成させた
  以前は常にpandasコードを幻覚していたモデルばかりだったので、これは大きな前進だ
SWEチャートにClaudeが入っていないのが目立つ
データを 意図的に操作したかのような印象 を与える
こうした態度だけでも信頼を失う
ローカルで直接動かせる日が楽しみだ
米国のサービスへの依存を減らしたい
ヨーロッパでオープンモデルを試せるサービスがあるのか気になる
- Koyeb はMistralに買収された後、GPUを 分単位でレンタル でき、ワンクリックでモデル配備も可能だ