- 大規模な強化学習とパラメータ拡張により、事実知識、複雑な推論、人間の嗜好とのアラインメント など複数の領域で性能を高めた最新の推論特化モデル
- 19のベンチマークで GPT-5.2-Thinking、Claude-Opus-4.5、Gemini 3 Pro などと同等、または一部領域でそれを上回る結果を記録
- 適応的ツール利用機能 により、対話中に自動で検索、メモリ、コードインタープリタを呼び出し、ハルシネーション低減とリアルタイム情報アクセス を支援
- テスト時スケーリング(test-time scaling) 戦略により、推論中の反復計算を減らし、自己反省ベースの経験蓄積メカニズム を通じて効率を向上
- Qwen ChatとAPIですぐに利用でき、OpenAIおよびAnthropic APIと互換 があるため、開発者は既存のワークフローに容易に統合可能
Qwen3-Max-Thinkingの概要
- Qwen3-Max-Thinking はQwenシリーズの最新フラッグシップ推論モデルで、強化学習と大規模な計算資源を活用して性能を拡張
- 事実知識、複雑な推論、指示追従、人間の嗜好とのアラインメント、エージェント機能 など多面的に改善
- 19の標準ベンチマークで GPT-5.2-Thinking、Claude-Opus-4.5、Gemini 3 Pro と同水準の性能を達成
- 2つの主要なイノベーションで強化
- 適応的ツール利用(adaptive tool-use) : 必要に応じて検索とコードインタープリタを自動呼び出し
- 高度なテスト時スケーリング(test-time scaling) : 推論中に追加計算を効率的に活用し、Gemini 3 Pro を上回る性能を確保
ベンチマーク性能の要約
- 知識(knowledge) 領域ではMMLU-Pro 85.7、C-Eval 93.7など、上位モデルに近いスコア
- STEM 分野ではGPQA 87.4、HLE 30.2で一部モデルより低いが、バランスの取れた性能を維持
- 推論(reasoning) ベンチマークではHMMT Nov 25 94.7、LiveCodeBench v6 85.9など高い数値を記録
- 指示追従とアラインメント(instruction following & alignment) 部門ではArena-Hard v2 90.2で最高水準
- ツール利用(tool use) と エージェント検索(agentic search) でも競合モデルに対して優れた結果が一部で確認された
適応的ツール利用機能
- ユーザーが直接ツールを選ばなくても、モデルが Search、Memory、Code Interpreter を自動活用
- Search と Memory はハルシネーションを減らし、リアルタイム情報アクセスと個別化された応答を提供
- Code Interpreter はコード実行と計算ベースの推論を通じて複雑な問題解決を支援
- これらの機能は、ルールベースおよびモデルベースのフィードバック を組み合わせた追加学習プロセスによって強化
- 結果として、自然で強力な対話体験を提供
テスト時スケーリング戦略
- 推論中の追加計算を配分 して性能を高める方法で、単純な並列サンプリングより効率的
- 提案された方式は 経験蓄積ベースのマルチラウンド(self-reflective multi-round) アプローチを採用
- “take-experience” メカニズムによって前ラウンドの重要な洞察を抽出
- すでに導かれた結論を繰り返さず、未解決の不確実性に集中
- 同じトークン消費でより高い コンテキスト効率 を達成
- GPQA 90.3→92.8、HLE 34.1→36.5、LiveCodeBench v6 88.0→91.4、IMO-AnswerBench 89.5→91.5、HLE(w/ tools) 55.8→58.3へ向上
開発とAPI統合
- Qwen Chat ですぐに利用可能で、モデル名は
qwen3-max-2026-01-23
- Alibaba Cloud Model Studio でAPIキーを作成して利用可能
- OpenAI APIと完全互換 で、Pythonのサンプルコードを提供
enable_thinking オプションで推論モードを有効化可能
- Anthropic APIプロトコル とも互換があり、Claude Code 環境でも同様に動作
- 環境変数を設定後、
claude コマンドで実行可能
1件のコメント
Hacker Newsのコメント
有名な写真についての質問があったが、システムが**「不適切なコンテンツ」**として検出し、エラーを返した。ユーザーはなぜこの画像が国際的に重要なのか気になっていた
最近のモデルのトークン使用量が気になった。「推論能力の向上」や「ツール利用の増加」はモデル自体の改善というより、より多くのトークンを使ってモデルをうまく誘導するやり方だ。つまり「少なく使ってより多くを得る」ではなく、「より多く使ってより多くを得る」構造になっている
検索機能がオフのときは Opus 4.5 より性能が低いのに、オンにするとより良くなる理由が気になった。もしかして中国インターネットのコンテンツ品質が高いのだろうかと思った
Qwen モデルの価格政策が気になった。Qwen Max と同じ料金なのか、またなぜ中国国内の価格がずっと安いのかと尋ねていた
Alibaba Cloudモデルページ
関連記事
HN では Opus 4.5 を事実上の標準モデルと見なし、中国モデルは 8 か月以上遅れていると考えられてきた。今回のモデルがその差を縮めるのか気になっていた
一方で Gemini 3 Pro/Flash はまだ一段下だが、昨年と比べれば非常に速く安い。結局のところベンチマークは参考にすぎず、実際の体感品質は主観的だ
昨年秋、CLI エージェント trae 経由で Qwen3-coder を Rust プロジェクトに使ったが、コード生成とリファクタリング能力は Gemini 2.5 Pro や Claude Opus 3.5 より優れていた。
Linux 共有メモリ IPC 呼び出しの追加や x86_64 SIMD 最適化までうまく処理した。ただしトークンキャッシュと大規模コンテキストウィンドウを使っていたため、月に数百ドルのコストがかかった
Hugging Face のリンクが見当たらず、Qwen がもうオープンモデルを公開していないのか気になった
Open Router で利用可能か尋ねる人もいた。Gemini 3 Flash との比較を期待していた
Mafia Arena
lmarena.ai, safe.ai ダッシュボード,
Clock Draw Test, EQBench, OCR Arena
LLM ベンチマークはまるで開発者面接のようだ。複雑な分散アルゴリズムの問題はうまく解けるのに、実務ではボタンを 1 つ追加しながらTailwind クラスの再利用を忘れるような乖離がある
モデルサイズを尋ねる質問があった
公式ブログ