3 ポイント 投稿者 GN⁺ 2025-09-13 | 1件のコメント | WhatsAppで共有
  • Qwen3-Nextは、大規模モデルの将来トレンドであるコンテキスト長の拡大総パラメータ数の拡大を支えるために開発された新しいモデルアーキテクチャであり、学習と推論の効率を最大化する機能を提供
  • ハイブリッドアテンション機構高度に疎なMoE構造を導入し、長文脈および大規模パラメータ設定での性能を向上
  • 学習安定性の最適化マルチトークン予測機構によって推論速度を高速化
  • Qwen3-Next-80B-A3B-Baseモデルは、学習コストを10%未満に抑えながらQwen3-32Bモデルと同等またはそれ以上の性能を達成
  • このモデルの公開は、オープンソースコミュニティに先進的なアーキテクチャの進展をもたらし、Qwen3.5開発へとつながる知能と生産性向上の基盤を築く

はじめに

  • 将来の大規模モデルにおける主要トレンドであるコンテキスト長の拡大総パラメータ数の拡大を見据え、長文脈および大規模パラメータ設定における学習・推論効率を高めるため、Qwen3-Nextという新しいモデルアーキテクチャを設計
  • Qwen3のMoE構造と比べ、ハイブリッドアテンション機構高度に疎なMoE構造、学習安定性の最適化、さらに高速な推論のためのマルチトークン予測機構など、複数の重要な改善を導入
  • このアーキテクチャに基づいてQwen3-Next-80B-A3B-Baseモデルを学習し、これは800億パラメータのモデルで、推論時には30億パラメータのみを活性化
  • このベースモデルは、dense型のQwen3-32Bモデルと同等またはわずかに上回る性能を達成しつつ、学習コスト(GPU時間)は10%未満に抑制
  • 特に32Kトークンを超えるコンテキスト長で10倍以上高いスループットを提供し、学習と推論の両方で極限の効率性を達成
  • Qwen3-Next-80B-A3B-Baseを基に、2つの事後学習版であるQwen3-Next-80B-A3B-InstructとQwen3-Next-80B-A3B-Thinkingを開発・公開
  • ハイブリッドアテンションと高疎MoEアーキテクチャによって、強化学習(RL)学習における長年の安定性・効率性の問題を解決し、RL学習速度と最終性能の両方を改善
  • Qwen3-Next-80B-A3B-Instructは、フラッグシップモデルQwen3-235B-A22B-Instruct-2507と同等の性能を示し、最大256Kトークンの超長文脈タスクで明確な優位性を示す
  • Qwen3-Next-80B-A3B-Thinkingは複雑な推論タスクで卓越しており、より高コストなモデルであるQwen3-30B-A3B-Thinking-2507およびQwen3-32B-Thinkingを上回り、クローズドソースのGemini-2.5-Flash-Thinkingを複数のベンチマークで超え、最上位モデルQwen3-235B-A22B-Thinking-2507の性能に迫る
  • Qwen3-NextはすでにHugging FaceとModelScopeで公開されており、誰でもAlibaba Cloud Model StudioとNVIDIA API Catalogを通じてQwen3-Nextのサービスを利用可能

主な機能

  • ハイブリッドアーキテクチャ: Gated DeltaNet + Gated Attention により、線形アテンションが標準アテンションの二次複雑性を打破し、長文脈でより効率的である点を活用
    • 線形アテンションは高速だがリコールが弱く、標準アテンションは高コストで遅いことを踏まえ、系統的な実験によりGated DeltaNetがSliding Window AttentionやMamba2のような一般的手法より強力なインコンテキスト学習能力を提供することを確認
    • Gated DeltaNetを標準アテンションと3:1の比率で混合(75%のレイヤーでGated DeltaNetを使用し、25%は標準アテンションを維持)することで、単一アーキテクチャより一貫して優れた性能と効率性を達成
    • 標準アテンションレイヤーで出力ゲーティング機構を採用し、アテンションの低ランク問題を軽減するとともに、アテンションヘッドあたりの次元を128から256へ増加
    • ロータリー位置エンコーディングを位置次元の最初の25%にのみ適用し、より長いシーケンスへの外挿性を改善
  • 超疎MoE: パラメータの3.7%のみを活性化 し、Qwen3-Nextは800億の総パラメータのうち、推論ステップごとに約30億のみを活性化する高疎MoE設計を採用
    • 実験では、グローバルなロードバランシングによって活性化専門家を固定しつつ、専門家の総パラメータ数を増やすほど学習損失が着実に減少することを示した
    • Qwen3のMoE(全128専門家、8ルーティング)と比べ、Qwen3-Nextは全512専門家へ拡張し、10ルーティング専門家 + 1共有専門家を組み合わせることで、性能低下なしにリソース活用を最大化
  • 学習安定性を重視した設計 により、アテンション出力ゲーティング機構がAttention SinkやMassive Activationのような問題を取り除き、モデル全体の数値安定性を保証
    • Qwen3で使われたQK-Normでは、一部のレイヤーノルム重みが異常に大きくなる問題が見つかったため、Qwen3-NextではZero-Centered RMSNormを採用し、ノルム重みに重み減衰を適用して無限成長を防止
    • MoEルーターパラメータを初期化時に正規化し、学習初期に各専門家が偏りなく選択されるようにすることで、ランダム初期化由来のノイズを低減
    • このような安定性重視の設計により、小規模実験の信頼性が高まり、大規模学習も円滑に実行可能
    広告
  • マルチトークン予測 により、Qwen3-Nextはネイティブなマルチトークン予測(MTP)機構を導入し、投機的デコーディング向けに高い受理率を持つMTPモジュールを生成するだけでなく、全体性能も向上
    • Qwen3-NextはMTPの多段推論性能を特に最適化しており、学習と推論の一貫性を保つ多段学習によって、実運用シナリオにおける投機的デコーディングの受理率をさらに改善

事前学習

  • 事前学習効率と推論速度: Qwen3-Nextは、Qwen3の36Tトークン事前学習コーパスから均一サンプリングしたサブセット(15Tトークン)で学習
    • Qwen3-30A-3Bに必要なGPU時間の80%未満を使用し、Qwen3-32Bの計算コストの9.3%しか消費しない一方で、より良い性能を達成し、優れた学習効率と価値を示す
    • ハイブリッドアーキテクチャのおかげで推論でも卓越しており、プリフィル段階では4Kコンテキスト長でQwen3-32Bよりほぼ7倍高いスループットを提供
    • 32K超では10倍以上高速
    • デコード段階では4Kコンテキストでほぼ4倍高いスループットを示し、32K超でもなお10倍以上の速度優位を維持
  • ベースモデル性能: Qwen3-Next-80B-A3B-Baseは、Qwen3-32B-Baseの非埋め込みパラメータの1/10のみを活性化しながら、大半のベンチマークでこれを上回り、Qwen3-30B-A3Bを大きく超えて、並外れた効率性と強力な性能を実証

事後学習

  • Instructモデル性能: Qwen3-Next-80B-A3B-Instructは、Qwen3-30B-A3B-Instruct-2507とQwen3-32B-Non-thinkingを大きく上回り、フラッグシップのQwen3-235B-A22B-Instruct-2507とほぼ一致する結果を達成
    • RULERでは、Qwen3-Next-80B-A3B-Instructは、より多くのアテンションレイヤーを持つQwen3-30B-A3B-Instruct-2507を全長で上回り、総レイヤー数がさらに多いQwen3-235B-A22B-Instruct-2507も256Kコンテキスト内で超えており、長文脈タスクにおけるGated DeltaNet + Gated Attentionハイブリッド設計の強みを証明
    広告
  • Thinkingモデル性能: Qwen3-Next-80B-A3B-Thinkingは、より高コストなモデルであるQwen3-30B-A3B-Thinking-2507とQwen3-32B-Thinkingを上回る
    • 複数のベンチマークでクローズドソースのGemini-2.5-Flash-Thinkingを超え、主要指標では最新フラッグシップモデルQwen3-235B-A22B-Thinking-2507に迫る

Qwen3で開発する

  • Hugging Face Transformers では、Qwen3-NextのコードはHugging Face transformersのメインブランチにマージ済み
    • 以前のバージョンではエラーが発生する可能性あり
    • 与えられた入力に基づくモデル生成内容を例示するコードスニペットを含む
    • マルチトークン予測(MTP)はHugging Face Transformersでは一般提供されていない
    • 効率性やスループットの改善は実装に大きく依存
    • 推論用途にはSGLangやvLLMのような専用推論フレームワークの採用を推奨
    • flash-linear-attentionとcausal-conv1dを使用すると、推論設定に応じてより高い効率が観測される可能性あり
    • 詳細な手順と要件は各リンクを参照
    • デプロイには最新のsglangまたはvllmを使用してOpenAI互換APIエンドポイントを作成
  • SGLang は、大規模言語モデルおよび視覚言語モデル向けの高速サービングフレームワークで、OpenAI互換APIサービスを備えたサーバーを起動可能
    • SGLangはメインブランチでQwen3-Nextをサポートしており、ソースからインストール可能
    • 4 GPUでテンソル並列を使用し、最大コンテキスト長256Kトークンで http://localhost:30000/v1 にAPIエンドポイントを生成するコマンドを提供
    • MTP向け推奨コマンドは、その他の設定を同じにしたうえで提供
    • 現在は SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 環境変数が必要
    • デフォルトのコンテキスト長は256Kであり、サーバー起動に失敗する場合は32768のような小さい値へ下げることを検討
    広告
  • vLLM は、LLM向けの高スループットかつメモリ効率の高い推論・サービングエンジンで、OpenAI互換APIサービスを備えたサーバーを起動可能
    • vLLMはメインブランチでQwen3-Nextをサポートしており、ソースからインストール可能
    • 4 GPUでテンソル並列を使用し、最大コンテキスト長256Kトークンで http://localhost:8000/v1 にAPIエンドポイントを生成するコマンドを提供
    • MTP向け推奨コマンドは、その他の設定を同じにしたうえで提供
    • 現在は VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 環境変数が必要
    • デフォルトのコンテキスト長は256Kであり、サーバー起動に失敗する場合は32768のような小さい値へ下げることを検討
  • Agentic利用: Qwen3はツール呼び出し能力に優れており、Qwen-Agentを使ってQwen3のエージェント能力を最大限活用することを推奨
    • Qwen-Agentは内部的にツール呼び出しテンプレートとツール呼び出しパーサーをカプセル化しており、コーディングの複雑さを大幅に低減
    • 利用可能なツールを定義するためにMCP設定ファイルを使用するか、Qwen-Agentの統合ツールを使うか、独自の統合ツールを使うことが可能
  • 超長文テキスト処理: Qwen3-Nextは最大262,144トークンのコンテキスト長をネイティブサポート
    • 入力と出力を含む総長がこの制限を大きく超える対話では、YaRNのようなRoPEスケーリング技術を用いて長文テキストを効果的に処理することを推奨
    • YaRNを用いて最大100万トークンのコンテキスト長でモデル性能を検証
    • YaRNはtransformers、vllm、sglangなど複数の推論フレームワークで現在サポートされている
    • 対応フレームワークでYaRNを有効化する方法は2つあり、モデルファイルを修正するか、コマンドライン引数を渡す
    • config.jsonファイルに rope_scaling フィールドを追加
    • vllmではコマンドライン引数を使用
    • sglangではコマンドライン引数を使用
    • 注目すべきすべてのオープンソースフレームワークは静的YaRNを実装しており、入力長に関係なくスケーリング係数は一定に保たれるため、短文性能に潜在的な影響がある
    • 長文脈処理が必要な場合にのみ rope_scaling 設定を追加することを推奨
    • factor は必要に応じて調整することを推奨し、たとえばアプリケーションの通常コンテキスト長が524,288トークンなら factor を2.0に設定

まとめ

  • Qwen3-Nextは、線形アテンションとアテンションゲートを含むアテンション機構の革新を導入し、MoE設計の疎性も高めた、主要なモデルアーキテクチャの飛躍を示す
  • Qwen3-Next-80B-A3Bは、thinkingモードとnon-thinkingモードの両方で、より大規模なQwen3-235B-A22B-2507と同等の性能を提供しつつ、ロングコンテキストシナリオで大幅に高速な推論を実現
  • このリリースにより、オープンソースコミュニティに先進的なアーキテクチャの進展をさらに強化し、最先端アーキテクチャとともに進化していくことを目指す

1件のコメント

 
GN⁺ 2025-09-13
Hacker Newsの意見
  • Qwen3-Nextの最もクールな点は、linear attentionの後にMTP(Multi-Token Prediction)を導入しながら、追加のun-embedding matrixを導入していないことです。Deepseek R1でも61層目にMTPが適用されていますが、embed_tokensshared_head.headという大きなテンソル(FP8で約2GB)が追加されるため、Qwen3-Nextははるかに少ないアクティブパラメータでMTPを処理でき、GB単位のメモリを節約できます。そのおかげで推論速度が大きく向上しています
    • MTPが推論段階で実際にどんな利点をもたらすのか気になります。単にpretraining効率にだけ関係するのか知りたいです
    • MTPとMedusa headsの違いは何なのか、またこのモデルがspeculative decodingを「ネイティブ」にサポートしているのか気になります。vllmでこのモデルを動かせば、すでにMTPが適用されているのでspeculative decodingの利点をそのまま享受できるのか知りたいです
    • これらすべての用語について、まとめて分かりやすく説明してくれる資料があれば知りたいです
  • Alibabaは本当に驚くべきモデルを出し続けています。Qwen3-Next-80B-A3BをQwen chatで使ってみましたが、非常に高速で、品質面でもQwen3-235B-A22Bに近いように感じます。どうやってこのレベルを実現したのか印象的です。ベンチマークがArtificial analysisに掲載されるのも楽しみにしています。Qwen Chatによると、Qwen3-Nextの制限はcontext length最大262,144 token、summary generation最大32,768 tokenです。Qwen3-235B-A22Bと比べてcontextは2倍、summaryは4倍です。長い文脈理解と複雑な課題処理が強みです。それでも私はQwen2.5-Turboを使い続けるつもりです。1M token contextをサポートする数少ないモデルの一つなので、大きなPDFをアップロードして章をまたいで質問する自分の環境にはそちらの方が合っています
    • Frontierモデルが長いcontextをサポートするといっても、実際にはcontext lengthが長くなるほど精度が大きく落ちることが多い気がします。10M contextをサポートすると言っても、contextを最大まで埋めるとまともに動かないのが現実です。他の人の意見も聞いてみたいです
    • モデルカードを少し見ると、Qwen3-NextもYaRNを使って最大1M context lengthまで拡張できるようです。公式文言によれば、Qwen3-Nextはデフォルトで262,144 tokenまでcontextをサポートし、入力+出力トークンの合計がこれを大きく超える場合には、RoPE scalingやYaRNの方法によって1Mトークンまで処理できることが検証されています。出典
    • Alibabaの独自モデルも本当に性能が高いのに、意外と知られていません。ベンチマークにもほとんど登場しません。Qwen3-coder-plusはオープンソースのqwen3よりずっと良く、Qwen3 maxもSOTAモデルと競える水準です
    • PDFデータをQwenに入れる前にどう準備しているのか、その方法が気になります
  • llmコマンドでQwen3-Next-80B-A3B-Thinkingに「spongebobのASCII」を頼んだところ、ごく基本的な形しか出ませんでした。Qwen3-Coder-480B-A35B-Instructでは、はるかに完成度の高いSpongebob ASCIIが生成されます。夜に何度か試したときは、Qwen3-coderで複数のASCIIが脚の部分を欠くなど仕上がりが不完全でしたが、朝には同じプロンプトで一発で完璧に出ました。リソース(サーバー、API)の占有率や状態が応答品質に影響するのか、それとも純粋に運の問題なのか気になりました。数分後に再度試したら失敗したので、おそらく10回に1回くらいの確率で、Qwen3-nextではほぼ出ない感じです
    • SpongeBob ASCII は、モデルに丸ごと記憶されているように感じます
    • Kimi K2とQwen Coder(あるいは他の関連モデル)の間にdistillationや学習データ共有があるのではと思います。ほとんどのLLMを試しましたが、Qwen3-coderとまったく同じSpongeBob ASCIIが出たのはKimi K2だけでした Kimi K2でもSpongeBob ASCIIがまったく同一に生成されます
    • SpongeBob ASCIIテストはQwen公式SNSから取られたもので、実質的には注入された暗記力(rote-memorization)を測るためのprobeです。大規模なdenseモデルならパラメータ容量で丸ごと覚えられますが、Qwen3のsparse-MoE構造ではexpert選択やトークンサンプリングなど複数のノイズが加わるため、細かな図のalignmentが崩れやすくなります。さらに、gated-attentionやmulti-token headといった新しい構造まで重なっているので、たった一度の不運なexpert routingだけでも図の配置が崩れ得ます。そしてQwen3-coderはこれを特別に学習しているので、比較としては不公平になります。Qwen3系の他モデルのASCII結果も比較してみましたが、かなりばらつきがありました
  • Qwenのおかげで、MoEが本当に大きく進歩したことに驚いています。Qwen3-Nextは従来の72B denseモデルを明確に上回っていて、VRAMとCPUをうまくoffloadすれば、14Bモデルよりも速く動作します。このレベルの効率性は本当にすごいです
    • QwenのおかげでLLMが進歩しているわけではなく、SOTA LLMはGPT-4の時点ですでにMoEです。HNがトレンドにあまりにも遅れていて、AIの話題で無意味な論評があふれているのは残念です
    • 振り返ると、昨年Metaがdense 405Bモデルの訓練に莫大なリソースを注ぎ込んだのは、むしろ滑稽な話です。モデルは大きいだけで、実際の性能は1/10サイズのモデルよりも低く、現実的にはどんなハードウェアでも実用的な速度で動かせません
  • Qwen3 NextをBrokk Power Rankingオープンラウンド(コーディングベンチマーク)に追加しました。性能的にはGPT-OSS-20bに近いです。オープンソースモデル全体の性能結果はこちらで確認できます
    • もっと多くの言語が追加されれば、さらに有用なベンチマークになると思います。現状ではJavaしか評価しておらず、実生活では私はJavaではなく他の言語を主に使っているので、ベンチマーク結果と実際の体験が一致しません
    • 登録されているKimi K2が最新バージョンなのか、以前のKimi k2なのか気になります
  • Oracleは今週、データセンター需要が急増すると見通して株価が上昇しています。もしLLMの効率性10倍向上が本当なら、Nvidia、Oracle、Coreweaveなどへの需要は減るかもしれません
    • Jevonsのパラドックスのような経済現象を考えるべきかもしれません
    • Oracleの見通しとは別に、効率性の向上がそのまま需要減少につながるとは思いません。Jevonsのパラドックスのように、むしろ効率が上がれば利用が増える可能性もあります
    • deepseek-r1についても同じことが言われましたが、現実は変わりませんでした。もしモデルを10倍効率的にできたとしても、みんなそのまま10倍大きなモデルを訓練しようとするでしょう。性能に対してscalingが効き続ける限り、どこかで「この大きさで十分だ」と止まることはないはずです
    • 決してそんなことはありません。市場の振る舞いを見ると、人は常に最高品質に喜んでお金を払い、価格はだいたい据え置きです。新しいモデルが出れば、低品質で安い古いモデルはすぐ見向きもされなくなり、人々は同じ価格でより良いモデルだけを求めます。今回も同じような流れになるでしょう
    • もしAIバブルが崩壊して、データセンターやGPUが余るようになったら、それを見越して投資収益を活用するにはどんな方法があるのか気になります
  • Gated Delta Networkが気になるなら、この論文を参照してください arxivリンク
    • Gated Attentionについての論文はこちらで参照できます
  • Qwen3-Nextはかなり印象的で、今後のブレークスルーはより優れたアーキテクチャが牽引すると感じます。GPT OSS 120Bのように100B超のパラメータが必須というわけではなさそうです
    • 確かに、パラメータは多いほど良いです。パラメータの少ないモデルはhallucinationが多くなります。ただし、アクティブパラメータが少なくてもroutingが良ければ問題ないかもしれません
    • 新しいアーキテクチャは魅力的ですし、すぐにオープンで公開されるのも興味深いです。ただ、Qwen系モデルは過学習が強い傾向があります。特定の作業だけ得意なことが多く、クローズドモデルに比べると汎化には限界があります。単にスケールの問題なのか、それとも学習レシピや手法の違いまで原因なのかはよく分かりません。OOD(out-of-distribution)でテストすると価値が急激に落ち、クローズドモデルには依然として強みがあります
  • 予測として、今後4年以内にAIは現在のSOTAモデルより15 IQポイント高い水準(しかもcontext lengthもずっと長い状態)で、誰でも簡単にアクセスできる汎用財のようになると思います。その時点でsynthetic data学習の改善が限界に近づき(「実データ」はすでに使い尽くされた後で)、大資本モデルの出力を使って安価にオープンソースモデルが訓練されるようになるでしょう。その後は、competitive reinforcement learningで汎用知能(AI)を訓練する方法が現れるまでAIの進歩は停滞すると思います(AlphaGoがそのように訓練されたように)。この方式が登場すれば、もはや膨大な学習データは必要なくなり、本当のAGI(汎用人工知能)が現れると見ています
    • 「実データ」を使い切ったという話が理解できません。インターネットには毎日新しい知識、科学論文、動画があふれているのに、どうしてデータが枯渇するのか疑問です
    • もし現在の最先端モデルが人間IQ換算で120程度だとするなら(正確かは分かりませんが、ここを基準にそうだとすると)、今後は135 IQ級の超没入型ボットが大量に登場することになります。その状況が実際に何を意味するのか、想像もつきません
  • 80Bモデルではありますが、最近はMacBook Pro(M4、64GB)で快適に動く32B以下のモデルに注目しています。ollamaを毎日スパムフィルタリング用に使っていますが、gemma3:27bは素晴らしく、gpt-oss:20bは速度も速いのでよく使っています
    • Ollamaをスパムフィルタリングにどう活用しているのか、詳しく説明してもらえると嬉しいです
    • モデル全体のパラメータは80Bですが、推論時にアクティブになるのは3B程度です。8GBのNvidiaカードでも以前の2507 Qwen3 30Bを問題なく動かせています
    • MoE構造なので、とても快適に動くはずです