Qwen3-Max-Thinkingモデル公開

(qwen.ai)

7 ポイント投稿者 GN⁺ 2026-01-27 | 1件のコメント | WhatsAppで共有

大規模な強化学習とパラメータ拡張により、事実知識、複雑な推論、人間の嗜好とのアラインメント など複数の領域で性能を高めた最新の推論特化モデル
19のベンチマークで GPT-5.2-Thinking、Claude-Opus-4.5、Gemini 3 Pro などと同等、または一部領域でそれを上回る結果を記録
適応的ツール利用機能 により、対話中に自動で検索、メモリ、コードインタープリタを呼び出し、ハルシネーション低減とリアルタイム情報アクセス を支援
テスト時スケーリング（test-time scaling） 戦略により、推論中の反復計算を減らし、自己反省ベースの経験蓄積メカニズム を通じて効率を向上
Qwen ChatとAPIですぐに利用でき、OpenAIおよびAnthropic APIと互換 があるため、開発者は既存のワークフローに容易に統合可能

Qwen3-Max-Thinkingの概要

Qwen3-Max-Thinking はQwenシリーズの最新フラッグシップ推論モデルで、強化学習と大規模な計算資源を活用して性能を拡張
- 事実知識、複雑な推論、指示追従、人間の嗜好とのアラインメント、エージェント機能 など多面的に改善
- 19の標準ベンチマークで GPT-5.2-Thinking、Claude-Opus-4.5、Gemini 3 Pro と同水準の性能を達成
2つの主要なイノベーションで強化
- 適応的ツール利用（adaptive tool-use） : 必要に応じて検索とコードインタープリタを自動呼び出し
- 高度なテスト時スケーリング（test-time scaling） : 推論中に追加計算を効率的に活用し、Gemini 3 Pro を上回る性能を確保

ベンチマーク性能の要約

知識（knowledge） 領域ではMMLU-Pro 85.7、C-Eval 93.7など、上位モデルに近いスコア
STEM 分野ではGPQA 87.4、HLE 30.2で一部モデルより低いが、バランスの取れた性能を維持
推論（reasoning） ベンチマークではHMMT Nov 25 94.7、LiveCodeBench v6 85.9など高い数値を記録
指示追従とアラインメント（instruction following & alignment） 部門ではArena-Hard v2 90.2で最高水準
ツール利用（tool use） と エージェント検索（agentic search） でも競合モデルに対して優れた結果が一部で確認された

適応的ツール利用機能

ユーザーが直接ツールを選ばなくても、モデルが Search、Memory、Code Interpreter を自動活用
- Search と Memory はハルシネーションを減らし、リアルタイム情報アクセスと個別化された応答を提供
- Code Interpreter はコード実行と計算ベースの推論を通じて複雑な問題解決を支援
これらの機能は、ルールベースおよびモデルベースのフィードバック を組み合わせた追加学習プロセスによって強化
結果として、自然で強力な対話体験を提供

テスト時スケーリング戦略

推論中の追加計算を配分 して性能を高める方法で、単純な並列サンプリングより効率的
提案された方式は 経験蓄積ベースのマルチラウンド（self-reflective multi-round） アプローチを採用
- “take-experience” メカニズムによって前ラウンドの重要な洞察を抽出
- すでに導かれた結論を繰り返さず、未解決の不確実性に集中
同じトークン消費でより高い コンテキスト効率 を達成
- GPQA 90.3→92.8、HLE 34.1→36.5、LiveCodeBench v6 88.0→91.4、IMO-AnswerBench 89.5→91.5、HLE(w/ tools) 55.8→58.3へ向上

開発とAPI統合

Qwen Chat ですぐに利用可能で、モデル名は qwen3-max-2026-01-23
Alibaba Cloud Model Studio でAPIキーを作成して利用可能
OpenAI APIと完全互換 で、Pythonのサンプルコードを提供
- enable_thinking オプションで推論モードを有効化可能
Anthropic APIプロトコル とも互換があり、Claude Code 環境でも同様に動作
- 環境変数を設定後、claude コマンドで実行可能

1件のコメント

GN⁺ 2026-01-27

Hacker Newsのコメント

有名な写真についての質問があったが、システムが**「不適切なコンテンツ」**として検出し、エラーを返した。ユーザーはなぜこの画像が国際的に重要なのか気になっていた
- これは別個の安全メカニズムによるものに見える。実際、Qwenの以前のモデルは中国国外で提供される際には天安門関連の話題も自由に扱っていた。たとえば Qwen3 235B A22B Instruct 2507 は「タンクマン」の写真の歴史的文脈や中国国内の検閲状況まで詳しく説明していた。こうした検閲そのものが象徴性をさらに強めたという分析もあった
- 中国企業であれば法的に検閲に従わなければならないので、驚くことではない。ただ、こうした制約がコーディング作業のような非政治的領域にどんな影響を与えるのかは気になる。実際、米国の Anthropic も違法行為を防ぐための「アライメント」の形で制限を設けている
- 米国の LLM でも同様の検閲問題が起きている。ただし検閲の対象が異なるだけだ
- 研究者の中に、LLM への悪性行為の埋め込み（backdoor）の可能性を研究した人がいるのか気になる。いくつかの論文では、少数の悪意ある例だけでもモデルが特定の「トリガー」文句に反応するよう学習させられるという。さらにはトークナイザーファイルを改変してAPI コスト増加や安全フィルタ弱体化のような副作用を引き起こすこともできるという。こうした議論が必要な時点だと思う
- こうした話題はしばしば議論を脱線させるので、そろそろ中国 AI モデルの技術的側面に会話を戻そうという意見もあった
最近のモデルのトークン使用量が気になった。「推論能力の向上」や「ツール利用の増加」はモデル自体の改善というより、より多くのトークンを使ってモデルをうまく誘導するやり方だ。つまり「少なく使ってより多くを得る」ではなく、「より多く使ってより多くを得る」構造になっている
- こうした点は**AGI（汎用人工知能）**の現実的な限界を示していると思う。計算資源をあまりに多く必要とするなら、技術的ブレークスルーがあっても実世界はしばらく大きく変わらないかもしれない。結局、推論用コンピューティング資源がボトルネックになる可能性がある
- Gemini に検索と比べた電力消費を聞いたところ、意外にもAI 検索の方が従来の検索より効率的だと答えた。また、Perplexity で勧められた arXiv 論文の中では Sara Hooker の On the Slow Death of Scaling が印象的だった。この論文は小規模モデルが大規模モデルを上回る事例を示し、今後の進歩は計算力よりアルゴリズム革新にかかっていると主張している
- モデルの進歩を評価する新しい指標が必要だと感じる。単純なベンチマークスコアより、GPU 使用量、速度、コストなどもあわせて考慮すべきだ
- こうした効率性と性能のバランスを説明する概念としてPareto frontierが適切だという意見があった
- 一部のモデルはトークンを浪費する推論過程を見せており、実際には非効率的だという指摘もあった
検索機能がオフのときは Opus 4.5 より性能が低いのに、オンにするとより良くなる理由が気になった。もしかして中国インターネットのコンテンツ品質が高いのだろうかと思った
- それは飛躍しすぎた推論だ。単に検索性能と統合品質がより優れている可能性が高い。モデルは多言語対応なので世界中のウェブサイトをうまく処理できる
- 自分は Kagi Assistant を使っているが、学術資料だけを検索するようフィルタできるので満足している。ただ、いつか学術論文さえ AI 生成物で汚染されるのではと心配でもある。それでも結局は解決策が見つかると信じている
- 「たぶん Reddit がないからでは？」という冗談もあった
Qwen モデルの価格政策が気になった。Qwen Max と同じ料金なのか、またなぜ中国国内の価格がずっと安いのかと尋ねていた
Alibaba Cloudモデルページ
- 中国国内ではAI 価格競争が激しく、政府がコンピューティングバウチャーと補助金を通じてインフラ費用を下げている。
  関連記事
- おそらく国内開発者支援のための補助金である可能性が高い
- エネルギーコストがより安いことも一因かもしれない
- 地域・検索条件に応じて価格が変わる**監視型価格設定（surveillance pricing）**の概念を紹介し、関連する動画リンクを共有していた
HN では Opus 4.5 を事実上の標準モデルと見なし、中国モデルは 8 か月以上遅れていると考えられてきた。今回のモデルがその差を縮めるのか気になっていた
- 公開されたベンチマーク基準では、依然として約 6 か月ほど遅れているように見える
- 個人的には GPT-5.2 の方が優れていて安いと感じる。HN のClaude Code バイアスは購読者の自己正当化かもしれない。それでも Opus 4.5 は速くて品質が高く、実際の使い勝手は素晴らしい。
  一方で Gemini 3 Pro/Flash はまだ一段下だが、昨年と比べれば非常に速く安い。結局のところベンチマークは参考にすぎず、実際の体感品質は主観的だ
昨年秋、CLI エージェント trae 経由で Qwen3-coder を Rust プロジェクトに使ったが、コード生成とリファクタリング能力は Gemini 2.5 Pro や Claude Opus 3.5 より優れていた。
Linux 共有メモリ IPC 呼び出しの追加や x86_64 SIMD 最適化までうまく処理した。ただしトークンキャッシュと大規模コンテキストウィンドウを使っていたため、月に数百ドルのコストがかかった
Hugging Face のリンクが見当たらず、Qwen がもうオープンモデルを公開していないのか気になった
- Max バージョンはもともと非公開モデルだった
- すべてのモデルが公開ウェイトで配布されるわけではなく、今回のモデルもまだオープンウェイトではないようだ
Open Router で利用可能か尋ねる人もいた。Gemini 3 Flash との比較を期待していた
Mafia Arena
- まだ登録されていないが、まもなく追加されるようだ
- モデル比較用に複数のベンチマークサイトが共有されていた:
  lmarena.ai, safe.ai ダッシュボード,
  Clock Draw Test, EQBench, OCR Arena
LLM ベンチマークはまるで開発者面接のようだ。複雑な分散アルゴリズムの問題はうまく解けるのに、実務ではボタンを 1 つ追加しながらTailwind クラスの再利用を忘れるような乖離がある
モデルサイズを尋ねる質問があった
- Qwen2.5 は 18 兆トークンで学習されたが、Qwen3 は36 兆トークンで、ほぼ 2 倍の規模だ。119 の言語と方言を含む
  公式ブログ

Qwen3-Max-Thinkingモデル公開

Qwen3-Max-Thinkingの概要

ベンチマーク性能の要約

適応的ツール利用機能

テスト時スケーリング戦略

開発とAPI統合

関連記事

1件のコメント

Hacker Newsのコメント