Qwen3.6-Plus: 現実世界エージェントへ向けて
(qwen.ai)- Qwen3.6-Plusは、Qwen3.5以降に公開された大規模アップグレードモデルで、エージェント型コーディング能力とマルチモーダル推論性能を大幅に強化
- 1Mトークンのコンテキストウィンドウをサポートし、Alibaba Cloud Model Studio APIを通じてすぐに利用可能
- コーディング・言語・マルチモーダル・エージェントベンチマークで業界最高水準の性能を記録し、複雑なコード管理および長期計画の実行能力を向上
- preserve_thinking オプションにより推論コンテキストを維持し、OpenClaw・Claude Code・Qwen Code などさまざまなコーディングエージェントとの統合をサポート
- 視覚認識から行動決定まで実行可能なマルチモーダルなエージェント型AIへと進化し、今後は小型モデルのオープンソース化および高自律スーパーエージェントへの拡張を目指す
Qwen3.6-Plusの主な機能と性能の要約
- Qwen3.6-Plusは、Qwen3.5シリーズ以降に公開された大規模アップグレード版で、エージェント型コーディング能力とマルチモーダル推論性能を大きく強化したモデル
- Alibaba Cloud Model Studioを通じてAPIですぐに利用でき、1Mトークンのコンテキストウィンドウを標準提供
- コミュニティからのフィードバックを反映して安定性と信頼性を改善し、実際の開発環境での**「vibe coding」体験**を目指す
性能評価
- さまざまな言語・コーディング・マルチモーダル・エージェントベンチマークで同クラス最高水準の性能を記録
- コーディングエージェント分野では、SWE-bench、Terminal-Bench、Claw-Eval など主要ベンチマークで業界をリードするモデルと同等またはそれを上回る結果を達成
- 汎用エージェントおよびツール活用の領域では、TAU3-Bench、DeepPlanning、MCPMark などで全体的に向上
- STEM推論、超長文情報抽出、多言語適応力などでも新たな最高記録を達成
- モデルは論理推論・メモリ・ツール実行を有機的に統合し、複雑なコード管理や長期計画など現実世界の問題解決能力を強化
マルチモーダル性能
- 高度なマルチモーダル推論により、文書理解、物理世界の分析、動画推論、視覚コーディングなどで大きな進展を達成
- 実世界での適用性の面では、テキスト・物体認識、精密な視覚認識など、実際のビジネス環境で安定した性能を発揮
- ビジョンと言語の統合を通じて、単一タスク性能を超えたワークフロー中心のエージェント型AIへと進化
- RealWorldQA、OmniDocBench、CountBench、VideoMME などさまざまなベンチマークで、GPT5.2、Claude 4.5、Gemini-3 Pro などと競争力のある結果を示す
APIと開発統合
- Alibaba Cloud Model Studio APIを通じて OpenAI および Anthropic 互換プロトコルをサポート
- 新しいAPIオプション
preserve_thinkingを追加- 以前の会話の推論内容を保持することで、エージェント型タスクの一貫性とトークン効率を向上
- デフォルトは無効(
false)で、有効化すると推論コンテキスト全体を保持
- APIは OpenAI 互換の
chat.completionsエンドポイント経由で利用可能で、サンプルコードも提供
コーディングおよびエージェント統合
- Qwen3.6-Plusは、OpenClaw、Claude Code、Qwen Code、Kilo Code、Cline、OpenCode などのサードパーティ製コーディングアシスタントと統合可能
- フロントエンド開発では、3Dシーン、ゲーム、Webデザインなど複雑なプロジェクト処理能力を強化
-
OpenClaw 統合
- セルフホスト型のオープンソースAIコーディングエージェントで、Model Studio と接続するとターミナルベースのエージェント型コーディング環境を提供
- 設定ファイル(
openclaw.json)に Qwen3.6-Plus モデルを追加して利用可能 - モデルはreasoning有効化、テキスト・画像入力、1Mコンテキストウィンドウをサポート
-
Qwen Code 統合
- Qwenシリーズに最適化されたオープンソースのターミナル型AIコーディングエージェント
- 複雑なコードベースの理解、反復作業の自動化、高速なデプロイを支援
- Node.js 環境でインストール後、
/authコマンドで認証可能
-
Claude Code 統合
- Anthropic API プロトコル互換により、Claude Code CLIでも Qwen3.6-Plus を利用可能
- 環境変数でモデル名(
qwen3.6-plus)とAPIエンドポイントを設定して実行
ビジュアルエージェントとマルチモーダル拡張
- 視覚認識 → マルチモーダル推論 → エージェント実行へと続く発展経路を継続的に強化
- 単純な認識にとどまらず、視覚情報の関係分析と行動決定まで実行可能
- 文書理解、チャート分析、UI認識、精密な位置把握など実用的な視覚タスクをサポート
- 動画理解の領域では、時間情報とフレーム間の関係を処理し、動的コンテンツ分析が可能
- GUIエージェントのシナリオで画面状態を認識し、多段階の計画と実行を実施
今後の計画
- Qwen3.6-Plus は、エージェント型コーディングとマルチモーダルAIにおける実質的な進展を実現したバージョンで、開発者エコシステムの基盤を強化
- まもなくQwen3.6シリーズ全体の公開および小型モデルのオープンソース化を予定
- 長期的には、リポジトリ単位の複雑な長期タスクを実行する高自律スーパーエージェントへの発展を目指す
1件のコメント
Hacker Newsの意見
今回のモデルはホスト提供専用で、オープンウェイトではない
以前は公開モデルで高い評価を得ていたが、いまやClaudeやChatGPTの競合として認識されようとする転換は難しい
実際、小型モデルを無料公開していたのも寛大さではなく広告戦略だった
また、Opus 4.6ではなく4.5と比較したのは、意図的に誤解を誘うものにも見える
それでもSOTA級ではないが、安価に提供されるモデル市場はかなり大きい
ただしこうした市場はブランド忠誠度が低く、少しでも良いモデルが出ればすぐ乗り換える傾向がある
Qwen 3.5のような300B級の派生版があるのかも不明。公式ブログにも言及がない
オープンモデルは増え続け、低価格なハードウェアでも動くのに、AI企業はどうやってマージンを守るのだろうかと思う
4.6は単なるコスト削減向けアップデートで、ベンチマークを調整して良く見せただけだった
たとえば指示によく従い、トークンを無駄遣いせず、スクリプトから逸脱しないといった特性のこと
中国のモデルはこの点で競争力が高く、70〜90%安い価格で似た品質を提供している
QwenがOpus 4.5やGemini Pro 3.0と比較したのは理解できる
でもそれを欺瞞的とまで言うのは行き過ぎだと思う
AIモデルは四半期ごとに新バージョンが出るが、前世代の性能をみんな忘れたわけでもない
GLM-5やKimi K2.5を使ったことがあるが、かなり良かった。今回のQwenモデルもそのレベルなら印象的だ
Qwen 3.5-plusや3-Maxもすでに非公開モデルだったので、今回が初めてではない
クローズドモデルなのは残念だが、SOTAを目指す競争は結局消費者の利益になると思う
まるでAppleが新しいiPhoneを出して旧世代のAndroidと比較しているように見えるので、信頼が下がる
しかもOpus 4.5は出力トークンあたり$25だが、今回のモデルは**$6程度**で、4分の1の価格だ
かなり良いPelicanの結果を得られた
Alibaba Cloud Model Studio APIで生成したが、アカウント登録とPayPal連携が必要だった
ただ、今はOpenRouterで無料で使える
中国の研究所がオープンソースをやめると思っている人たちに言いたい
そんなことにはならないはずだ
たとえばZ.aiのコーディングプランに加入してみればいい — ほとんど不可能だ
彼らはマーケティング力が弱く、オープンモデル公開以外に存在感を維持する方法がない
販売もOpenRouterやOpenCodeのような流通チャネルに依存している
結局、オープンソース化は国家戦略ではなく、商業化の唯一の手段なのだ
もし自己宣伝すらできないなら、それは性能の限界を示すサインかもしれない
今回のモデルは、ほとんどのQwenモデルと違ってウェイト非公開で、パラメータ数も公開されていない
しかもOpus 4.6は2か月前に出ているのに、4.5と比較した点が妙だ
出典
私はOpus 4.5との比較はそれほど問題ではないと思う
自分が慣れているモデルと比べるほうが、実際にはもっと有用だからだ
最高性能が欲しければ別のモデルを使うが、同程度の品質で低価格な選択肢を探しているなら十分意味がある
アプリの中核機能には使わなくても、それほど重要でない部分には十分活用できる
4.5級の性能を10分の1の価格で使えるなら、私はそちらを選ぶ
エージェントベンチマークの結果は興味深いが、Qwen3.6-Plusがエラー回復能力をどれだけ持っているのか気になる
ほとんどのテストは「ハッピーパス」しか扱っていないが、
実際には3段階目でミスをして、15段階目で立て直せるかが本当の肝だ
実際の開発ワークフローでこうしたストレステストをした人がいるのか気になる
AIベンダーには、競合の前世代モデルとの比較を使ったマーケティングをやめてほしい
誰もだまされないし、無駄にブランドの信頼を削るだけだ
Qwenモデル自体は素晴らしいのに、こうした比較戦略のせいで評判が傷つくのが残念だ
実際、Qwenは以前からPlus版とMax版は非公開で運用してきた
なので今回の公開方式は特に新しいものではない
Qwen 3.6 Plusは、単に3.5 Plusを洗練させた版のように見える
比較リンク