DeepScaleR: RLを活用した1.5Bモデルで `o1-preview` を上回る

(pretty-radio-b75.notion.site)

5 ポイント投稿者 GN⁺ 2025-02-12 | 1件のコメント | WhatsAppで共有

DeepScaleR-1.5B-Preview: Deepseek-R1-Distilled-Qwen-1.5Bモデルを強化学習（RL）でファインチューニングしたモデル
AIME2024 Pass@1 精度 43.1% を達成（ベースモデル比 +14.3% 向上）、
→ OpenAI o1-preview の性能を上回る！
3,800 A100 GPU時間（$4500）で学習 → 70,000 A100 GPU時間と比べて 18.42 倍効率的な RL スケーリング
データセット、コード、学習ログをオープンソース公開 → 誰でも RL を活用した知能拡張を実験可能

RLを活用した小型モデルの強化

Deepseek-R1 は OpenAI o1 に匹敵するオープンソースモデルだが、正確な学習プロセスは非公開
RL を活用して、少ない計算量で強力な推論モデルを開発する方法を研究
従来の RL の最大の制約は高コスト:
→ Deepseek-R1 の実験を再現するには最低 70,000 A100 GPU時間が必要
解決策:
- 高性能な知識蒸留（distillation）モデルを活用
- RL を段階的に拡張する "Iterative Lengthening" 手法を導入 → 計算量を 3,800 A100 GPU時間まで削減

データセット構築

AIME（1984-2023）+ AMC（2023以前）+ Omni-MATH + Still データセットを使用
データ精製プロセス:
1. 正答抽出: gemini-1.5-pro-002 を活用して公式解説から正答を抽出
2. 重複除去: sentence-transformers/all-MiniLM-L6-v2 埋め込みベースで類似問題を除去
3. 採点不能問題のフィルタリング: sympy を活用した自動評価が難しい問題を除去
最終的に 40,000 件の問題-正答ペアを確保、今後データを拡張予定

報酬関数（Reward Function）

Deepseek-R1 と同様に "Outcome Reward Model (ORM)" を適用:
- 1点: 正しい形式の正答（sympy 検証を通過）
- 0点: 誤答、形式エラー（<think>...</think> の欠落など）
"過程ベース報酬（Process Reward Model, PRM）" を使わない理由:
- 報酬ハッキング（reward hacking）の防止 → モデルが形式だけをなぞろうとする副作用を防ぐため

"Iterative Lengthening": RL学習を段階的に拡張する手法

Step 1: 8K コンテキストで RL 学習を開始

理由:
- 誤答の平均は 20,346 トークン、正答は 6,395 トークン → 長い応答ほど誤答になりやすい
- 初期から長いコンテキストで学習すると非効率 → まず 8K で最適化
結果:
- AIME Pass@1 28.9% → 33.9%（+5%）向上
- 不要なトークン数が減少 → 平均応答長が 10,484 トークン減少

Step 2: 16K コンテキストへ拡張

学習 1,000 ステップ後、モデルはより長く思考（推論）しようとする傾向を示した
しかし 8K の上限により学習効果が制限されたため、16K に拡張
利点:
- 最初から 16K で学習するより 2 倍以上高速（平均応答長 3,000 → 9,000 トークンへの増大を防止）
- AIME2024 精度 38% に到達

Step 3: "24K Magic" - 最終性能の向上

16K で性能が停滞 → 24K コンテキストへ最後の拡張
結果として AIME2024 Pass@1 精度 43.1% に到達し、OpenAI o1-preview を上回る！

最終評価結果

DeepScaleR モデルは AIME、MATH 500、AMC 2023、Minerva Math、OlympiadBench など複数の数学ベンチマークで評価された
AIME2024 基準では、DeepScaleR-1.5B-Preview の精度は 43.1% で、OpenAI o1-preview モデルより優れている
MATH 500、AMC 2023 などでも、1.5B モデルでありながら 7B モデルと同等またはそれ以上の性能を記録
先行研究（RL ベースの rStar、PRIME、SimpleRL）と比べても最高水準の効率性を示した

要点まとめ（Key Takeaways）

小型モデルでも RL のスケーリングは可能
- 従来は RL は大型モデルにのみ有効だという認識があった
- しかし高品質データでファインチューニングされた小型モデルでも、RL によって強力な推論能力を学習可能
- DeepScaleR は 28.9% → 43.1%（AIME 精度）へ向上
"Iterative Lengthening" 手法で効果的な長さ拡張が可能
- 先行研究では 16K 以上のコンテキストで性能向上が限定的だと報告されていた
- 8K → 16K → 24K の段階的拡張によって性能を最大化

結論: RLスケーリングの大衆化

DeepScaleR-1.5B-Preview は o1-preview を上回る初のオープンソース RL モデル
3,800 A100 GPU時間（$4500）だけでも高性能モデルを構築可能 → 低コスト RL 研究の可能性を実証
オープンソースコミュニティとともに、RL ベース推論モデルの発展を継続する予定

🔗 オープンソース資料:

1件のコメント

GN⁺ 2025-02-12

Hacker Newsの意見

このモデルは特定の問題を解くためにベンチマーク向けに調整されており、他のタスクではO1-Previewと比べて性能が劣る。特にこの問題を解きたいのでなければ注目する価値はない。しかし、それでも印象的ではある
小さな強化モデルが勝つだろう。私たちの文明、会社、チームを見ればわかる。専門化された人が大勢いるのであって、単一の巨大な天才がいるわけではない
現在のベンチマークへの過度な強調が問題だ。理想的には、ユーザーKPIと比較してベンチマークすべきだ
重要なのは、特定のタスクで強力な性能を発揮できる1Bモデルを訓練するための、簡単で信頼できる定石があることだ。以前はこういうものはなかった。エッジデバイスははるかに賢くなるだろう
私はとても世間知らずかもしれないが、このベンチマークを信頼している人はいるのだろうか。これらに意味はあるのだろうか。あまりにも簡単に操作できそうで、モデル同士を正確に比較できる方法には感じられない。ベンチマークに似てはいるがモデルが見たことのない問題を導入すると、性能がかなり低下するように思える
新しい「推論」モデルをテストできる、良くてシンプルなプロンプトはあるだろうか。「strawberry という単語の中の R の文字を数えろ」は少し退屈だ
私はOllamaと最小の量子化GGUF版（769MB）を使って、これをローカルで試している
ここで得られた回答: https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52 を確認したあとで正しい答えを得た。ただし、始めるときに重大なミスを犯していた
CoTモデルは外部関数を呼び出せるのだろうか。電卓にアクセスできるならどうだろうか
このやり方で検閲されていないモデルを手に入れられるなら、本当に素晴らしいだろう
実際かなりばかげている。ASCIIシーケンスを解読しろと言ったら、でたらめな答えを返してきた。phi-4 Q4を試したら正解した。9GB 対 2GB（推論）。2GBには十分な情報を詰め込めないので、一般的な数学の問題を解いたり、訓練データに何が入っていたかを知ったりする以外には、あまり役に立たない気がする
大学にいたころ、これは正直オーバーフィッティングと呼ばれていた。評価セット以外ではうまく機能しないように見える

DeepScaleR: RLを活用した1.5Bモデルで `o1-preview` を上回る

RLを活用した小型モデルの強化

データセット構築

報酬関数（Reward Function）

"Iterative Lengthening": RL学習を段階的に拡張する手法

Step 1: 8K コンテキストで RL 学習を開始

Step 2: 16K コンテキストへ拡張

Step 3: "24K Magic" - 最終性能の向上

最終評価結果

要点まとめ（Key Takeaways）

結論: RLスケーリングの大衆化

関連記事

1件のコメント

Hacker Newsの意見