- QwQ-32Bモデルは320億個のパラメータを持つモデルで、DeepSeek-R1に近い性能を示す
- このモデルは、大規模言語モデルの知能を強化するために強化学習(RL)を活用
- Hugging FaceとModelScopeでApache 2.0ライセンスのもと公開されており、Qwen Chatを通じて利用可能
性能
- QwQ-32Bは、数学的推論、コーディング能力、一般的な問題解決能力を評価するさまざまなベンチマークでテストされた。
- DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini、および元のDeepSeek-R1と比較して性能を評価
- QwQ-32BはLiveBench、BFCLで最高性能を記録し、IFEval、AIME24でもDeepSeek-R1-671Bと同等レベル
- LiveCodeBenchではDeepSeek-R1-671Bをやや下回るが、それでも他のモデルより優れている
- 全体として、DeepSeek-R1-671Bと同等またはそれ以上の性能を示しながら、**はるかに少ないパラメータ(325億 vs 6710億)**で競争力を証明
- つまり、QwQ-32Bは強化学習によって最適化されたモデルであり、はるかに小規模でありながら最上位の性能を達成したことが重要なポイント
強化学習
- 初期段階で、数学とコーディング作業のための強化学習(RL)スケーリング手法を導入
- 従来の報酬モデルの代わりに、正確性検証器とコード実行サーバーを使用して最終的な解の正確性を保証
- 一般的な能力のための追加RL段階があり、これは人間の選好やエージェント性能といった汎用能力の向上に寄与
今後の作業
- Qwenは、推論能力を高めるために強化学習(RL)を拡張する初期段階にある
- 強化された基盤モデルとスケールした計算資源を組み合わせることで、汎用人工知能(AGI)の実現に近づく見込み
- エージェントとRLの統合を通じて長期的な推論を可能にし、より大きな知能を発揮できるよう探究中
1件のコメント
Hacker Newsの意見
長いコンテキスト長(130kトークン)には注意が必要。十分なコンテキストなしに長いCoTを生成するのは無意味
数学学習とコーディングは一般的な推論能力を向上させる
DeepSeekより20倍小さい。どのハードウェアで実行可能なのか気になる
中国の戦略はオープンソースソフトウェアとロボティクスで収益化すること
Qwen2.5-plusをテストするためのリンクを提示
2024年11月に「プレビュー」として公開された
DeepSeek-R1のすぐ下に位置する
個人的な経験として、逆から読んで質問に答えるテストをした
即座に処理され、好印象だった