- Qwen3は最大235Bパラメータを持つ最新の大規模言語モデルで、DeepSeek-R1、Grok-3、Gemini-2.5-Proなどと競争力のある性能を示す
- ハイブリッド思考モード(Thinking/Non-Thinking)をサポートし、問題の難易度に応じて推論の深さを調整できる
- 119の言語と言語変種をサポートし、グローバルでの活用性が大幅に強化された
- 前作比で2倍に拡張された36兆トークンのデータで事前学習し、コーディング、数学、論理推論能力が向上した
- Apache 2.0ライセンスでオープンソース公開され、Hugging Face、ModelScope、Kaggleなどですぐに利用できる
紹介
- Qwen3はQwenシリーズの最新大規模言語モデルで、235Bパラメータを持つQwen3-235B-A22Bが主要フラッグシップモデルである
- 小型のMoEモデルであるQwen3-30B-A3Bは、10倍多いパラメータを活性化するQwQ-32Bを上回る性能を示す
- Denseモデル6種(0.6B、1.7B、4B、8B、14B、32B)とMoEモデル2種(30B、235B)をApache 2.0ライセンスの下で公開した
主な特徴
-
ハイブリッド思考モード
- Thinkingモード: 複雑な問題に対して段階的推論を行うモード
- Non-Thinkingモード: 迅速な応答が必要な単純な問題に対して即時回答を提供するモード
- 作業に応じて推論予算を調整し、コスト効率と品質を最適化できる
-
多言語対応
- 119の言語と言語変種のサポートにより、グローバルアプリケーション拡張の可能性が強化された
- 主な対応言語群: インド・ヨーロッパ語族、シナ・チベット語族、アフロ・アジア語族、オーストロネシア語族、ドラヴィダ語族など
-
強化されたエージェント機能
- コーディングとエージェント能力を最適化
- Qwen-Agentと統合してツール呼び出し能力を最大化できる
事前学習
- Qwen2.5比で2倍に増加した36兆トークンを用いて事前学習を実施した
- WebとPDF類似文書データを収集して多様な高品質データセットを構成
- STEM、コーディング、数学分野のデータを強化し、全体的な推論能力向上を達成した
事後学習
- 4段階パイプライン(CoT開始 → 強化学習 → 思考モード融合 → 一般強化学習)を適用した
- 論理的推論と高速応答を同時に実行できるようモデルを最適化
- 20以上の一般ドメインタスクを通じた強化学習により、汎用性と安定性を強化した
Qwen3で開発する
- Hugging Face transformers、SGLang、vLLM、Ollama、LMStudio、llama.cppなど多様なフレームワークをサポート
- Thinkingモードはコード上で簡単にon/offでき、
/think、/no_thinkコマンドで対話中の切り替えも可能
エージェントの使い方
- Qwen-Agentを通じてMCP構成ファイルや内蔵ツールを使い、複雑なエージェントシステムを構築できる
- OpenAI API互換サーバーを直接構築し、ローカルまたはパブリック配備が可能
今後の取り組み
- Qwen3は人工汎用知能(AGI)と人工超知能(ASI)に向けた重要なマイルストーンを示しており、事前学習と強化学習を拡張して、より高いレベルの知能を実現する
- モデルアーキテクチャと学習方法論を改善し、データ拡張、モデルサイズ増加、コンテキスト長拡張、モダリティ拡張、環境フィードバックを通じた長期推論を目指す
- モデル訓練中心の時代からエージェント訓練中心の時代へ移行しており、次のバージョンはすべての人の仕事と生活に意味ある進歩をもたらすだろう
2件のコメント
大規模モデルも興味深いですが、より興味深いのは小規模モデルのほうです。
0.6Bモデルは、他の多くのモデルの7B級に相当する性能を出しているように見えます。
Hacker Newsの意見
物理ベースの問題をLLMsに提示したが、人間にとっても難しい問題だった。GPT o3、Claude 3.7、Gemini 2.5 Proはいずれも最初は正解できなかった。Qwen3はさらにひどく間違えた。
ドキュメントがよく整備されており、主要な推論スタックへのサポートが初日から提供されている。サイズの選択肢も幅広い。コミュニティの量子化メーカーたちともすでに協業実績がある。
まだ性能をテストする前だが、周辺の細部への配慮だけでも素晴らしいリリースだ。MetaのLlama 4と比べると、これが標準であるべきだ。
ベンチマーク結果が非常に優秀で、信じがたいほどだ。30BモデルがGemini 2.5 Proと競合し、Gemma 27Bよりはるかに優れている。
さまざまなオープンウェイトモデルが登場しているが、標準的なデスクトップGPUで妥当な速度で動くモデルをどう見つければいいのか気になる。Quadro RTX 4000を使っていて、さまざまなサイズのモデルのうちどれが速いのかわからない。
QwenやDeepSeekのモデルはCCPの世界観に合わせて訓練されている可能性があるが、実際には問題を起こしていない。関連研究もあまり多くない。
Qwen-30B-A3Bに最も期待している。オフライン/ローカル専用のコーディングアシスタントに適していそうだ。これまでのオープンウェイトモデルは性能が低いか、遅すぎた。
推論モデルを比較する最善の方法についての知見を探している。創造的な回答には高い温度、論理的で決定的な出力には低い温度を使うのが推奨される。しかし、それが推論モデルにも当てはまるのか確信がない。
0.6B LLMが32kのコンテキストウィンドウを備えているのは興味深い。ファインチューニング向けの面白いベースモデルになり得る。Hugging Faceで最も多くダウンロードされ、いいねを集めている。
これらのモデルは非常に多く考えているように見える。ベンチマークは32kトークンの思考予算で実行されている。A3Bは特にQWQを上回っており、CPU推論で有用かもしれない。
性能指標は非常に印象的だ。MoEが3Bのアクティブパラメータでo1を上回っている。ローカルモデルは、ほとんどの作業をこなせるほど十分に良くなってきている。