QwQ-32B: 強化学習により、より少ないパラメータでDeepSeek-R1に近い性能を実現

(qwenlm.github.io)

3 ポイント投稿者 GN⁺ 2025-03-06 | 1件のコメント | WhatsAppで共有

QwQ-32Bモデルは320億個のパラメータを持つモデルで、DeepSeek-R1に近い性能を示す
このモデルは、大規模言語モデルの知能を強化するために強化学習（RL）を活用
Hugging FaceとModelScopeでApache 2.0ライセンスのもと公開されており、Qwen Chatを通じて利用可能

性能

QwQ-32Bは、数学的推論、コーディング能力、一般的な問題解決能力を評価するさまざまなベンチマークでテストされた。
DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini、および元のDeepSeek-R1と比較して性能を評価
- QwQ-32BはLiveBench、BFCLで最高性能を記録し、IFEval、AIME24でもDeepSeek-R1-671Bと同等レベル
- LiveCodeBenchではDeepSeek-R1-671Bをやや下回るが、それでも他のモデルより優れている
- 全体として、DeepSeek-R1-671Bと同等またはそれ以上の性能を示しながら、**はるかに少ないパラメータ（325億 vs 6710億）**で競争力を証明
- つまり、QwQ-32Bは強化学習によって最適化されたモデルであり、はるかに小規模でありながら最上位の性能を達成したことが重要なポイント

強化学習

初期段階で、数学とコーディング作業のための強化学習（RL）スケーリング手法を導入
従来の報酬モデルの代わりに、正確性検証器とコード実行サーバーを使用して最終的な解の正確性を保証
一般的な能力のための追加RL段階があり、これは人間の選好やエージェント性能といった汎用能力の向上に寄与

今後の作業

Qwenは、推論能力を高めるために強化学習（RL）を拡張する初期段階にある
強化された基盤モデルとスケールした計算資源を組み合わせることで、汎用人工知能（AGI）の実現に近づく見込み
エージェントとRLの統合を通じて長期的な推論を可能にし、より大きな知能を発揮できるよう探究中

1件のコメント

GN⁺ 2025-03-06

Hacker Newsの意見

長いコンテキスト長（130kトークン）には注意が必要。十分なコンテキストなしに長いCoTを生成するのは無意味
- 最初のプロンプトが長すぎて、タスクを忘れてしまう
- ユーザーが具体的なタスクを提示していない
- 初期指示はAIエージェントとして振る舞うこと
- ユーザーは問題を与えて、段階的に推論させたいようだ
数学学習とコーディングは一般的な推論能力を向上させる
DeepSeekより20倍小さい。どのハードウェアで実行可能なのか気になる
- 512GB M3 Ultraは必要なさそう
- DeepSeekに匹敵するが、20倍小さい
中国の戦略はオープンソースソフトウェアとロボティクスで収益化すること
- 米国はどうやって優位を維持するのか気になる
- インドはこの競争に参加できていない
Qwen2.5-plusをテストするためのリンクを提示
2024年11月に「プレビュー」として公開された
- 「待って」という表現を多用する
- 多くの推論トークンを生成した後、筋を見失う問題が発生
DeepSeek-R1のすぐ下に位置する
- 32Bとして非常に印象的
- thinkingトークンが最終回答の10倍になることもある
- 週末に関数呼び出しでテストする予定
個人的な経験として、逆から読んで質問に答えるテストをした
- 「ip fo eulav si tahw」を逆から読むと「what is value of pi」になる
- πの値は約3.14159
- πは無理数で、無限に続き、循環しない
即座に処理され、好印象だった

QwQ-32B: 強化学習により、より少ないパラメータでDeepSeek-R1に近い性能を実現

性能

強化学習

今後の作業

関連記事

1件のコメント

Hacker Newsの意見