- Qwen3.5 シリーズは、35B、122B、27B など4つの大規模言語モデルで構成され、そのうち3つは Apache 2.0 オープンソースライセンスで公開
- ベンチマークでは OpenAI GPT-5-mini と Anthropic Claude Sonnet 4.5 を上回る性能を示し、ローカル GPU 環境でも高性能に実行可能
- **4ビット量子化(quantization)**により精度をほぼ維持したまま、100万トークン超のコンテキストウィンドウをサポートし、デスクトップ GPU でも大規模データ処理が可能
- Gated Delta Networks と Mixture-of-Experts(MoE) 構造を組み合わせて効率を高め、「Thinking Mode」 を通じて内部推論プロセスを経てから回答を生成
- 企業はこれにより、プライバシー保護型のオンプレミス AI 構築が可能になり、高コストなクラウド依存なしで 自律型エージェント開発を実現できる
Qwen3.5-Medium モデル概要
- アリババの Qwen AI チームが公開した Qwen3.5-Medium シリーズは、エージェント型ツール呼び出し(agentic tool calling) をサポートする4つの LLM で構成
- 公開モデル: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- 独自モデル: Qwen3.5-Flash(Alibaba Cloud Model Studio API 専用)
- 3つのオープンソースモデルは Hugging Face と ModelScope からダウンロード可能
- Qwen3.5-Flash は商用 API 形式で提供され、西側モデルと比べて 運用コストが低い
性能と技術構造
- Qwen3.5 モデルは、ベンチマークで OpenAI GPT-5-mini と Claude Sonnet 4.5 を上回る
- 量子化(quantization) 後も高い精度を維持し、ローカル GPU(32GB VRAM) 環境で 100万トークン超のコンテキストウィンドウをサポート
- 4ビット重みおよび KV キャッシュ量子化 により、精度を損なわず大規模データ処理が可能
- ハイブリッドアーキテクチャ: Gated Delta Networks + Sparse Mixture-of-Experts(MoE)
- 総 350 億パラメータのうち 3億個のみが活性化
- MoE 層は 256 個のエキスパート(8 個のルーティング + 1 個の共有) で構成
- 4ビット圧縮時でも精度を維持し、ローカル展開時のメモリを節約
- 研究支援のため Qwen3.5-35B-A3B-Base モデルもあわせて公開
製品構成と機能
- Thinking Mode: モデルが回答前に `` タグで内部推論プロセスを生成
- モデル別の特徴
- Qwen3.5-27B: 効率性重視、80万トークン超のコンテキストをサポート
- Qwen3.5-Flash: 100万トークンの基本コンテキスト、公式ツールを内蔵
- Qwen3.5-122B-A10B: サーバークラス GPU(80GB VRAM)向け、100万超コンテキストをサポート
- ベンチマーク結果: Qwen3.5-35B-A3B は、Qwen3-235B、GPT-5-mini、Sonnet 4.5 より 知識(MMMLU) および 視覚推論(MMMU-Pro) 項目で優れる
価格と API 統合
- Qwen3.5-Flash API 料金
- 入力: $0.1 / 100万トークン
- 出力: $0.4 / 100万トークン
- キャッシュ生成: $0.125 / 100万トークン
- キャッシュ読み取り: $0.01 / 100万トークン
- ツール呼び出し料金: Web Search $10/1,000 回、Code Interpreter 無料(期間限定)
- 主要 LLM と比較して 最も安価な API の1つ
- 例: Claude Sonnet 4.5 は合計 $18/100万トークン、GPT-5.2 は $15.75、Qwen3.5-Flash は $0.5
企業活用と意味
- Qwen3.5-Medium の公開により、大規模研究所レベルのモデル微調整と展開が一般企業でも可能に
- オンプレミス環境で大容量ドキュメント・動画分析を実行でき、データプライバシーを強化
- Mixture-of-Experts 構造を社内ファイアウォール内で実行し、データ主権を維持
- Thinking Mode と Tool Calling 機能を活用して、自律型 AI エージェント構築が可能
- 初期ユーザーは「大規模クローズドモデルとの格差を縮めた」と評価
- 効率性重視の設計により、AI 統合における コスト削減・セキュリティ強化・運用俊敏性の確保が可能
4件のコメント
RTX Pro 6000(96GB、実質的には94GB)を所有していますが、
ollamaで122Bモデルが立ち上がりません。ビジョンモデルなので、ビジョントランスフォーマーが入っている部分のせいかもしれません。GPT OSS 120bモデルは余裕で動くのですが。そうですね……ビジョンエンコーダーが使われると、1BモデルでもVRAMを9GB食いますね
CUDAベースの
llama.cppサーバーで動かさないと性能が出ません。Hacker Newsの意見
オープンソースモデルの多くは ベンチマーク最適化ゲーム をしている
新しく公開されるモデルはどれも数か月前のSOTA水準だと宣伝されるが、実際に使ってみるとがっかりすることが多い
Qwen3-Coder-NextとQwen3.5を使ってみたが、Sonnet 4.5の水準には及ばない
ただし、目標を明確に示してテストで制約を与えると、粘り強く試行し、最終的には問題を解決することはある
それでもオープンソースモデルとしては印象的で、self-hosted環境 でここまでできるのは驚くべきことだ
しかし、Sonnet 4.5級という誇大広告は信じるべきではない
特に StepFun-3.5-flash は複雑なRustコードベースでも見事に動く
私はStepFunとは何の関係もないが、196B/11B構成でこの性能を出したチームには深い敬意を抱く
モデル同士を競わせる GertLabsベンチマーク は操作しにくいため、かなり信頼できる
むしろクラウドモデルのほうがランタイムまで調整できるので、さらにひどい可能性もある
以前はほとんど使いものにならなかったが、今回は本当に驚いた
標準的な問題とは異なるテストなら、過剰最適化にも強そうだ
MBP M3 Max 128Gでローカルモデルを動かしながら性能を比較している
Opus 4.6とGemini Proは速くて正確だったが、qwen3.5:35b-a3bは45分間動き続けた末に不正確な回答を出した
ファンの騒音がひどく、飛行機の離陸並みだった
こんなに遅いモデルで 大規模コードベース を扱えるのか疑問だ
クラウドモデルは1T以上のパラメータを、数百万ドル級のGPUで動かしているからだ
ローカルコーディングは「Androidアプリのボイラープレート生成」程度が現実的な水準だ
ローカルモデルは依然として 二世代前の性能 水準であり、Sonnet 4.5級だとしてもOpus 4.6とは大きな差がある
実際には、狭い問題に特化した小さなモデルのほうがうまく動く場合がある
私たちのチームはコーディングだけに集中する小型モデルをM2 16GBで動かしており、Sonnet 4.5より優れていると考えている
近くrig.aiのベータ版を公開する予定だ
サーバーでもファン速度を100%に固定するとGPU性能が30%向上する
ローカルモデルは軽い作業に向いており、重い処理はクラウドで行うほうが効率的だ
長いシステムプロンプトやファイル内容を与えると、ずっと効率的になるという報告がある
M1 MacBook Proでllama.cpp、OpenCode、Qwen3-Coder-30B-A3B-Instruct(GGUF、Q4_K_M量子化)をセットアップするガイドを書いた
導入はかなり面倒だったが、最新モデルにも適用できる
インストールガイドのリンク
MoE構造のおかげで推論速度も速い
Q4_K_M量子化を選んだが、これが最適な選択なのか気になる
LLMの内部を学び始めたのだが、float32があまりにも 寛容な精度 だと気づいた
ブログを通じて量子化を学び、Claudeに1〜8ビット量子化の精度を分析させた
4ビットは99%の類似度でほとんど損失がなく、しかも8ビットの半分のサイズなので sweet spot のように見えた
実際の専門家たちも4ビットを使っているのを見ると興味深い
GPT-OSSモデルはMXFP4形式で訓練された
OCP標準化文書、MXフォーマット仕様
演算が非常に高速で、キャッシュ効率も高いため、探究する価値がある
システムがあまりにもブラックボックスなので、直感的に把握しにくい
Qwen3.5 122BをLM StudioとOpencodeで動かしてみたが、かなり印象的だった
M4 Max/128GB環境でも遅くなく、Claude Codeレベルのコード分析力 を見せた
完全ローカルな代替手段がここまで進化したことに驚いた
オープンモデルはどんどん良くなっているが、まだSonnet 4.5の水準ではない
狭いドメイン では素晴らしいが、曖昧な問題を解くのは苦手だ
Qwen 3.5はこれまで使ったOSSの中で最高で、徐々に本物の知能を見せ始めている
RTX 6000 Proで無料で動かしているが、Composer 1.5をもっと頻繁に使っている
それでも今年中にローカルGPT 5.2級モデルが出ることを期待している
誇張された主張が多い
実際に使った人は少なく、現実的な基準 が不足していることが多い
以前は「数Kトークン以上は使えない」という但し書きがいつも付いていた
他のモデルはスタック実装が間違っていたり、UIがひどかったりした
Claude Sonnet 4.6もこの問題は正しく解けたが、それ以外はほとんど失敗した
以前は常にpandasコードを幻覚していたモデルばかりだったので、これは大きな前進だ
SWEチャートにClaudeが入っていないのが目立つ
データを 意図的に操作したかのような印象 を与える
こうした態度だけでも信頼を失う
ローカルで直接動かせる日が楽しみだ
米国のサービスへの依存を減らしたい
ヨーロッパでオープンモデルを試せるサービスがあるのか気になる