Qwen3-Nextモデル公開 - 究極の学習・推論効率を目指して

(qwen.ai)

3 ポイント投稿者 GN⁺ 2025-09-13 | まだコメントはありません。 | WhatsAppで共有

Qwen3-Nextは、大規模モデルの将来トレンドであるコンテキスト長の拡大と総パラメータ数の拡大を支えるために開発された新しいモデルアーキテクチャであり、学習と推論の効率を最大化する機能を提供
ハイブリッドアテンション機構と高度に疎なMoE構造を導入し、長文脈および大規模パラメータ設定での性能を向上
学習安定性の最適化とマルチトークン予測機構によって推論速度を高速化
Qwen3-Next-80B-A3B-Baseモデルは、学習コストを10%未満に抑えながらQwen3-32Bモデルと同等またはそれ以上の性能を達成
このモデルの公開は、オープンソースコミュニティに先進的なアーキテクチャの進展をもたらし、Qwen3.5開発へとつながる知能と生産性向上の基盤を築く

はじめに

将来の大規模モデルにおける主要トレンドであるコンテキスト長の拡大と総パラメータ数の拡大を見据え、長文脈および大規模パラメータ設定における学習・推論効率を高めるため、Qwen3-Nextという新しいモデルアーキテクチャを設計
Qwen3のMoE構造と比べ、ハイブリッドアテンション機構、高度に疎なMoE構造、学習安定性の最適化、さらに高速な推論のためのマルチトークン予測機構など、複数の重要な改善を導入
このアーキテクチャに基づいてQwen3-Next-80B-A3B-Baseモデルを学習し、これは800億パラメータのモデルで、推論時には30億パラメータのみを活性化
このベースモデルは、dense型のQwen3-32Bモデルと同等またはわずかに上回る性能を達成しつつ、学習コスト（GPU時間）は10%未満に抑制
特に32Kトークンを超えるコンテキスト長で10倍以上高いスループットを提供し、学習と推論の両方で極限の効率性を達成
Qwen3-Next-80B-A3B-Baseを基に、2つの事後学習版であるQwen3-Next-80B-A3B-InstructとQwen3-Next-80B-A3B-Thinkingを開発・公開
ハイブリッドアテンションと高疎MoEアーキテクチャによって、強化学習（RL）学習における長年の安定性・効率性の問題を解決し、RL学習速度と最終性能の両方を改善
Qwen3-Next-80B-A3B-Instructは、フラッグシップモデルQwen3-235B-A22B-Instruct-2507と同等の性能を示し、最大256Kトークンの超長文脈タスクで明確な優位性を示す
Qwen3-Next-80B-A3B-Thinkingは複雑な推論タスクで卓越しており、より高コストなモデルであるQwen3-30B-A3B-Thinking-2507およびQwen3-32B-Thinkingを上回り、クローズドソースのGemini-2.5-Flash-Thinkingを複数のベンチマークで超え、最上位モデルQwen3-235B-A22B-Thinking-2507の性能に迫る
Qwen3-NextはすでにHugging FaceとModelScopeで公開されており、誰でもAlibaba Cloud Model StudioとNVIDIA API Catalogを通じてQwen3-Nextのサービスを利用可能

主な機能

ハイブリッドアーキテクチャ: Gated DeltaNet + Gated Attention により、線形アテンションが標準アテンションの二次複雑性を打破し、長文脈でより効率的である点を活用
- 線形アテンションは高速だがリコールが弱く、標準アテンションは高コストで遅いことを踏まえ、系統的な実験によりGated DeltaNetがSliding Window AttentionやMamba2のような一般的手法より強力なインコンテキスト学習能力を提供することを確認
- Gated DeltaNetを標準アテンションと3:1の比率で混合（75%のレイヤーでGated DeltaNetを使用し、25%は標準アテンションを維持）することで、単一アーキテクチャより一貫して優れた性能と効率性を達成
- 標準アテンションレイヤーで出力ゲーティング機構を採用し、アテンションの低ランク問題を軽減するとともに、アテンションヘッドあたりの次元を128から256へ増加
- ロータリー位置エンコーディングを位置次元の最初の25%にのみ適用し、より長いシーケンスへの外挿性を改善
超疎MoE: パラメータの3.7%のみを活性化 し、Qwen3-Nextは800億の総パラメータのうち、推論ステップごとに約30億のみを活性化する高疎MoE設計を採用
- 実験では、グローバルなロードバランシングによって活性化専門家を固定しつつ、専門家の総パラメータ数を増やすほど学習損失が着実に減少することを示した
- Qwen3のMoE（全128専門家、8ルーティング）と比べ、Qwen3-Nextは全512専門家へ拡張し、10ルーティング専門家 + 1共有専門家を組み合わせることで、性能低下なしにリソース活用を最大化
学習安定性を重視した設計 により、アテンション出力ゲーティング機構がAttention SinkやMassive Activationのような問題を取り除き、モデル全体の数値安定性を保証
- Qwen3で使われたQK-Normでは、一部のレイヤーノルム重みが異常に大きくなる問題が見つかったため、Qwen3-NextではZero-Centered RMSNormを採用し、ノルム重みに重み減衰を適用して無限成長を防止
- MoEルーターパラメータを初期化時に正規化し、学習初期に各専門家が偏りなく選択されるようにすることで、ランダム初期化由来のノイズを低減
- このような安定性重視の設計により、小規模実験の信頼性が高まり、大規模学習も円滑に実行可能
マルチトークン予測 により、Qwen3-Nextはネイティブなマルチトークン予測（MTP）機構を導入し、投機的デコーディング向けに高い受理率を持つMTPモジュールを生成するだけでなく、全体性能も向上
- Qwen3-NextはMTPの多段推論性能を特に最適化しており、学習と推論の一貫性を保つ多段学習によって、実運用シナリオにおける投機的デコーディングの受理率をさらに改善

事前学習

事前学習効率と推論速度: Qwen3-Nextは、Qwen3の36Tトークン事前学習コーパスから均一サンプリングしたサブセット（15Tトークン）で学習
- Qwen3-30A-3Bに必要なGPU時間の80%未満を使用し、Qwen3-32Bの計算コストの9.3%しか消費しない一方で、より良い性能を達成し、優れた学習効率と価値を示す
- ハイブリッドアーキテクチャのおかげで推論でも卓越しており、プリフィル段階では4Kコンテキスト長でQwen3-32Bよりほぼ7倍高いスループットを提供
- 32K超では10倍以上高速
- デコード段階では4Kコンテキストでほぼ4倍高いスループットを示し、32K超でもなお10倍以上の速度優位を維持
ベースモデル性能: Qwen3-Next-80B-A3B-Baseは、Qwen3-32B-Baseの非埋め込みパラメータの1/10のみを活性化しながら、大半のベンチマークでこれを上回り、Qwen3-30B-A3Bを大きく超えて、並外れた効率性と強力な性能を実証

事後学習

Instructモデル性能: Qwen3-Next-80B-A3B-Instructは、Qwen3-30B-A3B-Instruct-2507とQwen3-32B-Non-thinkingを大きく上回り、フラッグシップのQwen3-235B-A22B-Instruct-2507とほぼ一致する結果を達成
- RULERでは、Qwen3-Next-80B-A3B-Instructは、より多くのアテンションレイヤーを持つQwen3-30B-A3B-Instruct-2507を全長で上回り、総レイヤー数がさらに多いQwen3-235B-A22B-Instruct-2507も256Kコンテキスト内で超えており、長文脈タスクにおけるGated DeltaNet + Gated Attentionハイブリッド設計の強みを証明
Thinkingモデル性能: Qwen3-Next-80B-A3B-Thinkingは、より高コストなモデルであるQwen3-30B-A3B-Thinking-2507とQwen3-32B-Thinkingを上回る
- 複数のベンチマークでクローズドソースのGemini-2.5-Flash-Thinkingを超え、主要指標では最新フラッグシップモデルQwen3-235B-A22B-Thinking-2507に迫る

Qwen3で開発する

Hugging Face Transformers では、Qwen3-NextのコードはHugging Face transformersのメインブランチにマージ済み
- 以前のバージョンではエラーが発生する可能性あり
- 与えられた入力に基づくモデル生成内容を例示するコードスニペットを含む
- マルチトークン予測（MTP）はHugging Face Transformersでは一般提供されていない
- 効率性やスループットの改善は実装に大きく依存
- 推論用途にはSGLangやvLLMのような専用推論フレームワークの採用を推奨
- flash-linear-attentionとcausal-conv1dを使用すると、推論設定に応じてより高い効率が観測される可能性あり
- 詳細な手順と要件は各リンクを参照
- デプロイには最新のsglangまたはvllmを使用してOpenAI互換APIエンドポイントを作成
SGLang は、大規模言語モデルおよび視覚言語モデル向けの高速サービングフレームワークで、OpenAI互換APIサービスを備えたサーバーを起動可能
- SGLangはメインブランチでQwen3-Nextをサポートしており、ソースからインストール可能
- 4 GPUでテンソル並列を使用し、最大コンテキスト長256Kトークンで http://localhost:30000/v1 にAPIエンドポイントを生成するコマンドを提供
- MTP向け推奨コマンドは、その他の設定を同じにしたうえで提供
- 現在は SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 環境変数が必要
- デフォルトのコンテキスト長は256Kであり、サーバー起動に失敗する場合は32768のような小さい値へ下げることを検討
vLLM は、LLM向けの高スループットかつメモリ効率の高い推論・サービングエンジンで、OpenAI互換APIサービスを備えたサーバーを起動可能
- vLLMはメインブランチでQwen3-Nextをサポートしており、ソースからインストール可能
- 4 GPUでテンソル並列を使用し、最大コンテキスト長256Kトークンで http://localhost:8000/v1 にAPIエンドポイントを生成するコマンドを提供
- MTP向け推奨コマンドは、その他の設定を同じにしたうえで提供
- 現在は VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 環境変数が必要
- デフォルトのコンテキスト長は256Kであり、サーバー起動に失敗する場合は32768のような小さい値へ下げることを検討
Agentic利用: Qwen3はツール呼び出し能力に優れており、Qwen-Agentを使ってQwen3のエージェント能力を最大限活用することを推奨
- Qwen-Agentは内部的にツール呼び出しテンプレートとツール呼び出しパーサーをカプセル化しており、コーディングの複雑さを大幅に低減
- 利用可能なツールを定義するためにMCP設定ファイルを使用するか、Qwen-Agentの統合ツールを使うか、独自の統合ツールを使うことが可能
超長文テキスト処理: Qwen3-Nextは最大262,144トークンのコンテキスト長をネイティブサポート
- 入力と出力を含む総長がこの制限を大きく超える対話では、YaRNのようなRoPEスケーリング技術を用いて長文テキストを効果的に処理することを推奨
- YaRNを用いて最大100万トークンのコンテキスト長でモデル性能を検証
- YaRNはtransformers、vllm、sglangなど複数の推論フレームワークで現在サポートされている
- 対応フレームワークでYaRNを有効化する方法は2つあり、モデルファイルを修正するか、コマンドライン引数を渡す
- config.jsonファイルに rope_scaling フィールドを追加
- vllmではコマンドライン引数を使用
- sglangではコマンドライン引数を使用
- 注目すべきすべてのオープンソースフレームワークは静的YaRNを実装しており、入力長に関係なくスケーリング係数は一定に保たれるため、短文性能に潜在的な影響がある
- 長文脈処理が必要な場合にのみ rope_scaling 設定を追加することを推奨
- factor は必要に応じて調整することを推奨し、たとえばアプリケーションの通常コンテキスト長が524,288トークンなら factor を2.0に設定

まとめ

Qwen3-Nextは、線形アテンションとアテンションゲートを含むアテンション機構の革新を導入し、MoE設計の疎性も高めた、主要なモデルアーキテクチャの飛躍を示す
Qwen3-Next-80B-A3Bは、thinkingモードとnon-thinkingモードの両方で、より大規模なQwen3-235B-A22B-2507と同等の性能を提供しつつ、ロングコンテキストシナリオで大幅に高速な推論を実現
このリリースにより、オープンソースコミュニティに先進的なアーキテクチャの進展をさらに強化し、最先端アーキテクチャとともに進化していくことを目指す

Qwen3-Nextモデル公開 - 究極の学習・推論効率を目指して

はじめに

主な機能

事前学習

事後学習

Qwen3で開発する

まとめ

関連記事

まだコメントはありません。