22 ポイント 投稿者 GN⁺ 2026-03-02 | 4件のコメント | WhatsAppで共有
  • Qwen3.5 シリーズは、35B、122B、27B など4つの大規模言語モデルで構成され、そのうち3つは Apache 2.0 オープンソースライセンスで公開
  • ベンチマークでは OpenAI GPT-5-miniAnthropic Claude Sonnet 4.5 を上回る性能を示し、ローカル GPU 環境でも高性能に実行可能
  • **4ビット量子化(quantization)**により精度をほぼ維持したまま、100万トークン超のコンテキストウィンドウをサポートし、デスクトップ GPU でも大規模データ処理が可能
  • Gated Delta NetworksMixture-of-Experts(MoE) 構造を組み合わせて効率を高め、「Thinking Mode」 を通じて内部推論プロセスを経てから回答を生成
  • 企業はこれにより、プライバシー保護型のオンプレミス AI 構築が可能になり、高コストなクラウド依存なしで 自律型エージェント開発を実現できる

Qwen3.5-Medium モデル概要

  • アリババの Qwen AI チームが公開した Qwen3.5-Medium シリーズは、エージェント型ツール呼び出し(agentic tool calling) をサポートする4つの LLM で構成
    • 公開モデル: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
    • 独自モデル: Qwen3.5-Flash(Alibaba Cloud Model Studio API 専用)
  • 3つのオープンソースモデルは Hugging FaceModelScope からダウンロード可能
  • Qwen3.5-Flash は商用 API 形式で提供され、西側モデルと比べて 運用コストが低い

性能と技術構造

  • Qwen3.5 モデルは、ベンチマークで OpenAI GPT-5-miniClaude Sonnet 4.5 を上回る
  • 量子化(quantization) 後も高い精度を維持し、ローカル GPU(32GB VRAM) 環境で 100万トークン超のコンテキストウィンドウをサポート
  • 4ビット重みおよび KV キャッシュ量子化 により、精度を損なわず大規模データ処理が可能
  • ハイブリッドアーキテクチャ: Gated Delta Networks + Sparse Mixture-of-Experts(MoE)
    • 総 350 億パラメータのうち 3億個のみが活性化
    • MoE 層は 256 個のエキスパート(8 個のルーティング + 1 個の共有) で構成
    • 4ビット圧縮時でも精度を維持し、ローカル展開時のメモリを節約
  • 研究支援のため Qwen3.5-35B-A3B-Base モデルもあわせて公開

製品構成と機能

  • Thinking Mode: モデルが回答前に `` タグで内部推論プロセスを生成
  • モデル別の特徴
    • Qwen3.5-27B: 効率性重視、80万トークン超のコンテキストをサポート
    • Qwen3.5-Flash: 100万トークンの基本コンテキスト、公式ツールを内蔵
    • Qwen3.5-122B-A10B: サーバークラス GPU(80GB VRAM)向け、100万超コンテキストをサポート
  • ベンチマーク結果: Qwen3.5-35B-A3B は、Qwen3-235B、GPT-5-mini、Sonnet 4.5 より 知識(MMMLU) および 視覚推論(MMMU-Pro) 項目で優れる

価格と API 統合

  • Qwen3.5-Flash API 料金
    • 入力: $0.1 / 100万トークン
    • 出力: $0.4 / 100万トークン
    • キャッシュ生成: $0.125 / 100万トークン
    • キャッシュ読み取り: $0.01 / 100万トークン
  • ツール呼び出し料金: Web Search $10/1,000 回、Code Interpreter 無料(期間限定)
  • 主要 LLM と比較して 最も安価な API の1つ
    • 例: Claude Sonnet 4.5 は合計 $18/100万トークン、GPT-5.2 は $15.75、Qwen3.5-Flash は $0.5

企業活用と意味

  • Qwen3.5-Medium の公開により、大規模研究所レベルのモデル微調整と展開が一般企業でも可能に
  • オンプレミス環境で大容量ドキュメント・動画分析を実行でき、データプライバシーを強化
  • Mixture-of-Experts 構造を社内ファイアウォール内で実行し、データ主権を維持
  • Thinking ModeTool Calling 機能を活用して、自律型 AI エージェント構築が可能
  • 初期ユーザーは「大規模クローズドモデルとの格差を縮めた」と評価
  • 効率性重視の設計により、AI 統合における コスト削減・セキュリティ強化・運用俊敏性の確保が可能

4件のコメント

 
chcv0313 2026-03-02

RTX Pro 6000(96GB、実質的には94GB)を所有していますが、ollamaで122Bモデルが立ち上がりません。ビジョンモデルなので、ビジョントランスフォーマーが入っている部分のせいかもしれません。GPT OSS 120bモデルは余裕で動くのですが。

 
ng0301 2026-03-02

そうですね……ビジョンエンコーダーが使われると、1BモデルでもVRAMを9GB食いますね

 
kensin2 2026-03-02

CUDAベースの llama.cpp サーバーで動かさないと性能が出ません。

 
GN⁺ 2026-03-02
Hacker Newsの意見
  • オープンソースモデルの多くは ベンチマーク最適化ゲーム をしている
    新しく公開されるモデルはどれも数か月前のSOTA水準だと宣伝されるが、実際に使ってみるとがっかりすることが多い
    Qwen3-Coder-NextとQwen3.5を使ってみたが、Sonnet 4.5の水準には及ばない
    ただし、目標を明確に示してテストで制約を与えると、粘り強く試行し、最終的には問題を解決することはある
    それでもオープンソースモデルとしては印象的で、self-hosted環境 でここまでできるのは驚くべきことだ
    しかし、Sonnet 4.5級という誇大広告は信じるべきではない

    • 私の経験では、一部のオープンソースモデルは本当に 強力で実用的
      特に StepFun-3.5-flash は複雑なRustコードベースでも見事に動く
      私はStepFunとは何の関係もないが、196B/11B構成でこの性能を出したチームには深い敬意を抱く
    • 「前世代」のモデルが依然としてオープンソースより優れてはいるが、GLM-5のようなモデルはパターンマッチング能力をうまく捉えているようだ
      モデル同士を競わせる GertLabsベンチマーク は操作しにくいため、かなり信頼できる
    • 実際のところ、この種のベンチマーク最適化は すべてのモデル がやっていることだ
      むしろクラウドモデルのほうがランタイムまで調整できるので、さらにひどい可能性もある
    • 私はQwen 3.5 27Bを4090で動かしているが、ローカルモデルでこれほど コーディング性能 が高いのは初めて見た
      以前はほとんど使いものにならなかったが、今回は本当に驚いた
    • 最新の オフライン/プライベートコーディングベンチマーク があるのか気になっていたが、Apex Testing はかなり良さそうだ
      標準的な問題とは異なるテストなら、過剰最適化にも強そうだ
  • MBP M3 Max 128Gでローカルモデルを動かしながら性能を比較している
    Opus 4.6とGemini Proは速くて正確だったが、qwen3.5:35b-a3bは45分間動き続けた末に不正確な回答を出した
    ファンの騒音がひどく、飛行機の離陸並みだった
    こんなに遅いモデルで 大規模コードベース を扱えるのか疑問だ

    • そもそも100Bパラメータ級のオープンモデルをノートPCで動かすことには限界がある
      クラウドモデルは1T以上のパラメータを、数百万ドル級のGPUで動かしているからだ
      ローカルコーディングは「Androidアプリのボイラープレート生成」程度が現実的な水準だ
    • OpusやGeminiは数百万ドル級のH200クラスGPUで動いている
      ローカルモデルは依然として 二世代前の性能 水準であり、Sonnet 4.5級だとしてもOpus 4.6とは大きな差がある
    • 業界は「大きいモデルほど常に優れている」という 論理的誤り に陥っている
      実際には、狭い問題に特化した小さなモデルのほうがうまく動く場合がある
      私たちのチームはコーディングだけに集中する小型モデルをM2 16GBで動かしており、Sonnet 4.5より優れていると考えている
      近くrig.aiのベータ版を公開する予定だ
    • MacBookは 熱制約 が厳しいため、長時間作業には不向きだ
      サーバーでもファン速度を100%に固定するとGPU性能が30%向上する
      ローカルモデルは軽い作業に向いており、重い処理はクラウドで行うほうが効率的だ
    • qwen3.5-35b-a3bは コンテキストが短いとき に推論へ時間をかける傾向がある
      長いシステムプロンプトやファイル内容を与えると、ずっと効率的になるという報告がある
  • M1 MacBook Proでllama.cpp、OpenCode、Qwen3-Coder-30B-A3B-Instruct(GGUF、Q4_K_M量子化)をセットアップするガイドを書いた
    導入はかなり面倒だったが、最新モデルにも適用できる
    インストールガイドのリンク

    • LM Studioを使えば 1回の検索とクリック でインストールでき、OpenAI互換APIとして公開される
    • Ryzen 32GBデスクトップでも同じセットアップをしたが、Qwenが最も印象的だった
      MoE構造のおかげで推論速度も速い
      Q4_K_M量子化を選んだが、これが最適な選択なのか気になる
    • 16GB RAMでも実用になるローカルモデルが出てくるのを待っている
    • M1での 実行速度 がどの程度なのか気になる
  • LLMの内部を学び始めたのだが、float32があまりにも 寛容な精度 だと気づいた
    ブログを通じて量子化を学び、Claudeに1〜8ビット量子化の精度を分析させた
    4ビットは99%の類似度でほとんど損失がなく、しかも8ビットの半分のサイズなので sweet spot のように見えた
    実際の専門家たちも4ビットを使っているのを見ると興味深い

    • 最新のNVIDIAハードウェアでは 4ビット学習 もサポートされている
      GPT-OSSモデルはMXFP4形式で訓練された
      OCP標準化文書MXフォーマット仕様
    • 三値(ternary)モデル の研究も興味深い
      演算が非常に高速で、キャッシュ効率も高いため、探究する価値がある
    • 関連資料をもっと学びたいのだが、参考になるリソースがあるのか気になる
    • 1%の精度差が実際にどのような 認知的効果 を生むのか感覚がつかめない
      システムがあまりにもブラックボックスなので、直感的に把握しにくい
  • Qwen3.5 122BをLM StudioとOpencodeで動かしてみたが、かなり印象的だった
    M4 Max/128GB環境でも遅くなく、Claude Codeレベルのコード分析力 を見せた
    完全ローカルな代替手段がここまで進化したことに驚いた

  • オープンモデルはどんどん良くなっているが、まだSonnet 4.5の水準ではない
    狭いドメイン では素晴らしいが、曖昧な問題を解くのは苦手だ
    Qwen 3.5はこれまで使ったOSSの中で最高で、徐々に本物の知能を見せ始めている
    RTX 6000 Proで無料で動かしているが、Composer 1.5をもっと頻繁に使っている
    それでも今年中にローカルGPT 5.2級モデルが出ることを期待している

  • 誇張された主張が多い
    実際に使った人は少なく、現実的な基準 が不足していることが多い
    以前は「数Kトークン以上は使えない」という但し書きがいつも付いていた

    • Qwen 3.5 122B/a10B(q3、unsloth dynamic quant)で RPN電卓Webアプリ を作ったが、ローカルモデルで初めて完全に動作した
      他のモデルはスタック実装が間違っていたり、UIがひどかったりした
      Claude Sonnet 4.6もこの問題は正しく解けたが、それ以外はほとんど失敗した
    • Qwen3-Coder-30B-A3B-InstructはIDE統合や小さな関数単位の作業には良いが、大規模機能の実装 には限界がある
    • 35Bモデルで PolarsベースのPCA実装 を10分で完成させた
      以前は常にpandasコードを幻覚していたモデルばかりだったので、これは大きな前進だ
  • SWEチャートにClaudeが入っていないのが目立つ
    データを 意図的に操作したかのような印象 を与える
    こうした態度だけでも信頼を失う

  • ローカルで直接動かせる日が楽しみだ
    米国のサービスへの依存を減らしたい

  • ヨーロッパでオープンモデルを試せるサービスがあるのか気になる

    • Koyeb はMistralに買収された後、GPUを 分単位でレンタル でき、ワンクリックでモデル配備も可能だ