DeepScaleR: RLを活用した1.5Bモデルで `o1-preview` を上回る
(pretty-radio-b75.notion.site)- DeepScaleR-1.5B-Preview: Deepseek-R1-Distilled-Qwen-1.5Bモデルを強化学習(RL)でファインチューニングしたモデル
- AIME2024 Pass@1 精度 43.1% を達成(ベースモデル比 +14.3% 向上)、
→ OpenAIo1-previewの性能を上回る! - 3,800 A100 GPU時間($4500)で学習 → 70,000 A100 GPU時間と比べて 18.42 倍効率的な RL スケーリング
- データセット、コード、学習ログをオープンソース公開 → 誰でも RL を活用した知能拡張を実験可能
RLを活用した小型モデルの強化
- Deepseek-R1 は OpenAI
o1に匹敵するオープンソースモデルだが、正確な学習プロセスは非公開 - RL を活用して、少ない計算量で強力な推論モデルを開発する方法を研究
- 従来の RL の最大の制約は高コスト:
→Deepseek-R1の実験を再現するには最低 70,000 A100 GPU時間が必要 - 解決策:
- 高性能な知識蒸留(distillation)モデルを活用
- RL を段階的に拡張する "Iterative Lengthening" 手法を導入 → 計算量を 3,800 A100 GPU時間まで削減
データセット構築
-
AIME(1984-2023)+ AMC(2023以前)+ Omni-MATH + Still データセットを使用
-
データ精製プロセス:
- 正答抽出:
gemini-1.5-pro-002を活用して公式解説から正答を抽出 - 重複除去:
sentence-transformers/all-MiniLM-L6-v2埋め込みベースで類似問題を除去 - 採点不能問題のフィルタリング:
sympyを活用した自動評価が難しい問題を除去
- 正答抽出:
-
最終的に 40,000 件の問題-正答ペアを確保、今後データを拡張予定
報酬関数(Reward Function)
-
Deepseek-R1 と同様に "Outcome Reward Model (ORM)" を適用:
1点: 正しい形式の正答(sympy検証を通過)0点: 誤答、形式エラー(<think>...</think>の欠落など)
-
"過程ベース報酬(Process Reward Model, PRM)" を使わない理由:
- 報酬ハッキング(reward hacking)の防止 → モデルが形式だけをなぞろうとする副作用を防ぐため
"Iterative Lengthening": RL学習を段階的に拡張する手法
Step 1: 8K コンテキストで RL 学習を開始
- 理由:
- 誤答の平均は 20,346 トークン、正答は 6,395 トークン → 長い応答ほど誤答になりやすい
- 初期から長いコンテキストで学習すると非効率 → まず 8K で最適化
- 結果:
- AIME Pass@1 28.9% → 33.9%(+5%)向上
- 不要なトークン数が減少 → 平均応答長が 10,484 トークン減少
Step 2: 16K コンテキストへ拡張
- 学習 1,000 ステップ後、モデルはより長く思考(推論)しようとする傾向を示した
- しかし 8K の上限により学習効果が制限されたため、16K に拡張
- 利点:
- 最初から 16K で学習するより 2 倍以上高速(平均応答長 3,000 → 9,000 トークンへの増大を防止)
- AIME2024 精度 38% に到達
Step 3: "24K Magic" - 最終性能の向上
- 16K で性能が停滞 → 24K コンテキストへ最後の拡張
- 結果として AIME2024 Pass@1 精度 43.1% に到達し、OpenAI
o1-previewを上回る!
最終評価結果
- DeepScaleR モデルは AIME、MATH 500、AMC 2023、Minerva Math、OlympiadBench など複数の数学ベンチマークで評価された
- AIME2024 基準では、DeepScaleR-1.5B-Preview の精度は 43.1% で、OpenAI
o1-previewモデルより優れている - MATH 500、AMC 2023 などでも、1.5B モデルでありながら 7B モデルと同等またはそれ以上の性能を記録
- 先行研究(RL ベースの rStar、PRIME、SimpleRL)と比べても最高水準の効率性を示した
要点まとめ(Key Takeaways)
-
小型モデルでも RL のスケーリングは可能
- 従来は RL は大型モデルにのみ有効だという認識があった
- しかし高品質データでファインチューニングされた小型モデルでも、RL によって強力な推論能力を学習可能
- DeepScaleR は 28.9% → 43.1%(AIME 精度)へ向上
-
"Iterative Lengthening" 手法で効果的な長さ拡張が可能
- 先行研究では 16K 以上のコンテキストで性能向上が限定的だと報告されていた
- 8K → 16K → 24K の段階的拡張によって性能を最大化
結論: RLスケーリングの大衆化
- DeepScaleR-1.5B-Preview は
o1-previewを上回る初のオープンソース RL モデル - 3,800 A100 GPU時間($4500)だけでも高性能モデルを構築可能 → 低コスト RL 研究の可能性を実証
- オープンソースコミュニティとともに、RL ベース推論モデルの発展を継続する予定
🔗 オープンソース資料:
1件のコメント
Hacker Newsの意見