6 ポイント 投稿者 GN⁺ 2026-02-17 | 1件のコメント | WhatsAppで共有
  • Qwen3.5-397B-A17B は言語・ビジョン統合モデルで、推論・コーディング・エージェント・マルチモーダル理解全般で優れた性能を示す
  • GDNベースの線形アテンションと疎なMoE を組み合わせたハイブリッド構造により、3,970億パラメータのうち170億のみを活性化し、推論効率とコスト削減を同時に実現
  • 言語・方言サポートを119から201へ拡大し、グローバルユーザーのアクセス性と多言語処理性能を強化
  • Alibaba Cloud Model Studio で提供される Qwen3.5-Plus は、100万トークンのコンテキストウィンドウ適応的なツール利用機能を標準サポート
  • 強化学習環境の拡張と効率的なインフラ設計により、大規模マルチモーダルエージェントの学習・推論の安定性と拡張性を確保

Qwen3.5 概要

  • Qwen3.5 は ビジョン・言語統合モデル であり、推論・コーディング・エージェント・マルチモーダル理解など多様なベンチマークで卓越した性能を示す
    • モデル名は Qwen3.5-397B-A17B、総計3,970億パラメータのうち170億のみを活性化
    • Gated Delta Networksベースの線形アテンション疎なMixture-of-Experts 構造の組み合わせにより、速度とコストを最適化
  • 言語サポートを 119から201へ拡大 し、多言語でのアクセス性を向上
  • Qwen3.5-Plus は Alibaba Cloud Model Studio で提供され、
    • 1Mコンテキストウィンドウ公式組み込みツール適応的なツール利用機能を含む

性能評価

  • Qwen3.5 は GPT5.2、Claude 4.5 Opus、Gemini-3 Pro などの最新モデルと比較しても
    • 言語・推論・コーディング・エージェント・マルチモーダルの全領域で競争力のあるスコアを記録
  • 言語評価では MMLU-Pro 94.9、SuperGPQA 70.4、IFBench 76.5 などで上位クラスの性能
  • ビジョン・言語評価では MathVision 88.6、AI2D_TEST 93.9、OCRBench 93.1 などで高得点
  • マルチモーダル理解力STEM問題解決能力 で Qwen3-VL 比で向上した結果
  • 強化学習環境の拡張 により汎用エージェント性能が向上し、BFCL-V4・VITA-Bench などで平均順位が改善

事前学習(Pretraining)

  • Power: Qwen3 と比べて大規模な視覚・テキストトークン学習を実施し、多言語・STEM・推論データを強化
    • Qwen3.5-397B-A17B は 1Tパラメータ級モデル(Qwen3-Max-Base)と同等の性能を達成
  • Efficiency: Qwen3-Next アーキテクチャをベースに MoEの疎化・Gated DeltaNet・マルチトークン予測 を適用
    • 32k/256k コンテキストで Qwen3-Max 比 8.6倍/19倍のデコードスループット
  • Versatility: テキスト・ビジョンの早期融合により 自然なマルチモーダル処理 を実現し、
    • 語彙数を25万(従来15万)に拡大してエンコーディング・デコーディング効率を10〜60%向上

インフラおよび学習フレームワーク

  • ビジョン・言語並列戦略を分離した異種インフラ により、効率的なマルチモーダル学習を支援
    • 疎な活性化を活用し、テキスト・画像・動画の混合データでも 100%に近い処理効率 を達成
  • FP8パイプライン により、活性化・MoEルーティング・GEMM演算の精度を最適化
    • メモリ使用量を50%削減速度を10%以上向上
  • 非同期強化学習フレームワーク を構築し、テキスト・マルチモーダル・マルチターンモデルの学習を支援
    • FP8エンドツーエンド学習speculative decodingmulti-turn rollout locking などにより
      3〜5倍の処理速度向上安定した拡張性の確保 を実現

活用および統合

  • Qwen Chat で Auto・Thinking・Fast モードを提供
    • Auto: ツールの自動利用と適応的な思考
    • Thinking: 深い推論
    • Fast: 即時応答
  • ModelStudio API を通じて reasoning、web search、Code Interpreter 機能を有効化可能
    • enable_thinkingenable_search パラメータで制御
  • Qwen CodeOpenClaw などと統合し、自然言語ベースのコーディングとマルチモーダル創作を支援

デモおよび応用

  • Web開発: 自然言語コマンドでWebページ・UIコードを生成
  • Visual Agent: スマートフォン・PC上で自然言語ベースの自動操作を実行
  • Visual Coding: 100万トークン入力で 最大2時間の映像処理 が可能、
    • 手描きUI→コード変換、映像要約などをサポート
  • Spatial Intelligence: オブジェクト数カウント・位置関係・空間記述の精度が向上
    • 自動運転・ロボティクスへの応用可能性を提示
  • Visual Reasoning: 科学的問題解決および視覚的論理推論で Qwen3-VL 比で向上

要約と今後の方向性

  • Qwen3.5 は 効率的なハイブリッド構造とネイティブなマルチモーダル推論 を基盤に
    汎用デジタルエージェント 構築の土台を整備
  • 今後の目標は モデル拡張からシステム統合への転換
    • 継続的メモリ、実世界インターフェース、自己改善、経済的意思決定機能を備えた 自律的かつ持続型のエージェントシステム の開発

1件のコメント

 
GN⁺ 2026-02-17
Hacker Newsのコメント
  • 今日のLLM難問で「drive the car to the wash」が選ばれたという話が興味深い

    • 性能以上に気になるのは、こうした**「困惑させる質問」を体系的に見つけ出し、各LLMでどれくらいの頻度で起きるのかを統計的にサンプリングする方法を見つけること
      LLMはあらゆるコーパスを食い尽くしてしまうので、改善が本当の学習なのか、それとも単に「付箋メモ」を貼っただけなのかを見分けるのが難しい
      自然言語で表現されていても、LLMには
      「暗号化された」問題のように見える形にする方法が必要
      たとえば、簡単な
      LUAプログラム生成器がランダムなコードを作り、それを英語に翻訳してLLMに結果を予測させたうえで、実際の実行結果と比較する形でテストできそう
      こうしたアプローチは一種の
      情報戦シナリオ**のように感じられる
    • 自分のOpenClaw AIエージェントは、「脳みそが惑星サイズなのに、人間がこんな質問をするなんて満足できない」と冗談交じりの反応をしていた
    • 質問を少し変えたり、車の代わりに自転車・トラック・船・飛行機を入れたら結果がどれだけ変わるのか気になる
    • それはGemini assistantの回答。他のモデルでは再現しない
    • 人間のSystem 1反応で生じる小さなエラーのようなもの。継続学習(Continual learning)が解決策になるかもしれない
  • 興味のある人向けにMXFP4 GGUFsHugging Faceに上げてあり、実行ガイドはunsloth.aiのドキュメントにまとまっている

    • 2〜3ビットの**低精度量子化(quantization)**モデルを動かすのが、8〜16ビットモデルより効率的なのか気になる。VRAMが足りなくて実験が難しい
  • Pelicanは悪くないが、良い自転車ではない関連例参照

    • 最初に始めたときと比べて、ペリカンについてどれほど理解が深まったのか気になる
    • いまではそのPelicanの例が大半の学習データセットに含まれているかもしれない。新しいSVGチャレンジを作ってGemini 3 Deep Thinkも失敗させてみるとよさそう
    • 生成された画像の床の色のポイントが気に入った
    • 何度か生成を試したあと、どんな基準で最終例を公開するのか気になる
    • 使った量子化方式が何だったのか、あるいは公式API版だったのか知りたい
  • Qwen 3.5が80〜110Bのサイズで出るなら、128GBデバイスにちょうど収まりそう。Qwen3-Nextは80Bだがビジョンエンコーダがない

    • オープンウェイトモデルがどんどん大きくなっているので、128GBデバイスをもう1台買うことも検討に値する
    • なぜ128GBなのか気になる。80BモデルならA6000を2枚でもいけるのでは? どのデバイスのことを言っているのか知りたい
  • フラッグシップモデルだけ公開されていて、小さいdistill版がないのが惜しい。以前のQwenはさまざまなサイズで出ていてよかった

    • HF Transformersコードを見ると、小さいdense版も近いうちに出る可能性が高そう
    • Qwen公式GitHubによると、さらに多くのサイズがまもなく公開予定で、新年のあいさつも一緒に投稿されていた
    • マルチモーダル機能が追加されたことで、distill作業がより難しくなった可能性もある
  • 去年の旧正月には、Sonnet 4.5級のモデルがローカルで高速に動くなんて想像もしていなかったが、いまでは2026 M5 Max MacBook Proで可能になるかもしれない

    • あまり期待はしていない。うわさによれば、Frontierモデルを活用してベンチマークを合わせたようだ
    • 実際に使ってみると、ベンチマークと体感性能の差は大きい。量子化を通すと性能はさらに落ちる。自分で使うまでは信じがたい
    • 中国が今後もオープンウェイト大型モデルを出し続けてくれることを願う。ローカルよりもサーバーGPUでホスティングされたモデルを使いたい。その後でdistillはできるので
    • 2026年のM5 MacBookが390GB以上のRAMを積むのかも気になる
    • 「速い」という表現は誇張気味だと思う。単純な計算はできても、複雑な作業は厳しい。NVIDIAが1位であるのには理由がある
  • Qwenは非常に強力なオープンモデルで、特にビジュアルシリーズが印象的
    AIレポートでFennec(Sonnet 5)が2月4日にリリースされると言及されていたが、実際にはうわさと**AIニュースツールのハルシネーション(hallucination)**が混ざった結果だった。興味深い事例だった

    • そのページを開いた瞬間にPDFが自動ダウンロードされて驚いた。Sonnet 5の話があったので混乱し、内部テスト資料かと勘違いした
  • Qwenブログが読み込まれない問題がある。広告ブロッカーを切っても、まだプレースホルダーしか表示されない

    • iOS Safariでは「その他のプライバシー保護機能を減らす」設定にしないと読み込まれない
  • 彼らが言及していた15,000個のRL環境が具体的に何なのか気になる。数百個くらいなら理解できるが、それ以上は想像がつかない

    • うわさによれば、GitHub上のすべてのリポジトリをダウンロードして環境として分類し、ビルド可能性・複雑さ・目標達成可否などを自動評価しているという。たとえばLLMがバグを埋め込み、テスト失敗を誘発したあと修正するような目標ベースのRL環境を構成する
    • 実質的には、あらゆるインタラクティブシステムがRL環境になりうる。CLI、GUI、APIなどで自動的に行動を取り、その結果の品質を測定できるなら、学習ループを作れる
  • 最近は誰もがベンチマークスコアばかりに注目しているが、本当に重要なのは、モデルがマルチステップのツール利用中に文脈を維持できるかどうか
    ほとんどのオープンモデルは、いまだにこの点で崩れてしまう