5 ポイント 投稿者 GN⁺ 2025-02-12 | 1件のコメント | WhatsAppで共有
  • DeepScaleR-1.5B-Preview: Deepseek-R1-Distilled-Qwen-1.5Bモデルを強化学習(RL)でファインチューニングしたモデル
  • AIME2024 Pass@1 精度 43.1% を達成(ベースモデル比 +14.3% 向上)、
    → OpenAI o1-preview の性能を上回る!
  • 3,800 A100 GPU時間($4500)で学習 → 70,000 A100 GPU時間と比べて 18.42 倍効率的な RL スケーリング
  • データセット、コード、学習ログをオープンソース公開 → 誰でも RL を活用した知能拡張を実験可能

RLを活用した小型モデルの強化

  • Deepseek-R1 は OpenAI o1 に匹敵するオープンソースモデルだが、正確な学習プロセスは非公開
  • RL を活用して、少ない計算量で強力な推論モデルを開発する方法を研究
  • 従来の RL の最大の制約は高コスト:
    Deepseek-R1 の実験を再現するには最低 70,000 A100 GPU時間が必要
  • 解決策:
    • 高性能な知識蒸留(distillation)モデルを活用
    • RL を段階的に拡張する "Iterative Lengthening" 手法を導入 → 計算量を 3,800 A100 GPU時間まで削減

データセット構築

  • AIME(1984-2023)+ AMC(2023以前)+ Omni-MATH + Still データセットを使用

  • データ精製プロセス:

    1. 正答抽出: gemini-1.5-pro-002 を活用して公式解説から正答を抽出
    2. 重複除去: sentence-transformers/all-MiniLM-L6-v2 埋め込みベースで類似問題を除去
    3. 採点不能問題のフィルタリング: sympy を活用した自動評価が難しい問題を除去
  • 最終的に 40,000 件の問題-正答ペアを確保、今後データを拡張予定

報酬関数(Reward Function)

  • Deepseek-R1 と同様に "Outcome Reward Model (ORM)" を適用:

    • 1点: 正しい形式の正答(sympy 検証を通過)
    • 0点: 誤答、形式エラー(<think>...</think> の欠落など)
  • "過程ベース報酬(Process Reward Model, PRM)" を使わない理由:

    • 報酬ハッキング(reward hacking)の防止 → モデルが形式だけをなぞろうとする副作用を防ぐため

"Iterative Lengthening": RL学習を段階的に拡張する手法

Step 1: 8K コンテキストで RL 学習を開始

  • 理由:
    • 誤答の平均は 20,346 トークン、正答は 6,395 トークン → 長い応答ほど誤答になりやすい
    • 初期から長いコンテキストで学習すると非効率 → まず 8K で最適化
  • 結果:
    • AIME Pass@1 28.9% → 33.9%(+5%)向上
    • 不要なトークン数が減少 → 平均応答長が 10,484 トークン減少

Step 2: 16K コンテキストへ拡張

  • 学習 1,000 ステップ後、モデルはより長く思考(推論)しようとする傾向を示した
  • しかし 8K の上限により学習効果が制限されたため、16K に拡張
  • 利点:
    • 最初から 16K で学習するより 2 倍以上高速(平均応答長 3,000 → 9,000 トークンへの増大を防止)
    • AIME2024 精度 38% に到達

Step 3: "24K Magic" - 最終性能の向上

  • 16K で性能が停滞 → 24K コンテキストへ最後の拡張
  • 結果として AIME2024 Pass@1 精度 43.1% に到達し、OpenAI o1-preview を上回る!

最終評価結果

  • DeepScaleR モデルは AIME、MATH 500、AMC 2023、Minerva Math、OlympiadBench など複数の数学ベンチマークで評価された
  • AIME2024 基準では、DeepScaleR-1.5B-Preview の精度は 43.1% で、OpenAI o1-preview モデルより優れている
  • MATH 500、AMC 2023 などでも、1.5B モデルでありながら 7B モデルと同等またはそれ以上の性能を記録
  • 先行研究(RL ベースの rStar、PRIME、SimpleRL)と比べても最高水準の効率性を示した

要点まとめ(Key Takeaways)

  1. 小型モデルでも RL のスケーリングは可能

    • 従来は RL は大型モデルにのみ有効だという認識があった
    • しかし高品質データでファインチューニングされた小型モデルでも、RL によって強力な推論能力を学習可能
    • DeepScaleR は 28.9% → 43.1%(AIME 精度)へ向上
  2. "Iterative Lengthening" 手法で効果的な長さ拡張が可能

    • 先行研究では 16K 以上のコンテキストで性能向上が限定的だと報告されていた
    • 8K → 16K → 24K の段階的拡張によって性能を最大化

結論: RLスケーリングの大衆化

  • DeepScaleR-1.5B-Preview は o1-preview を上回る初のオープンソース RL モデル
  • 3,800 A100 GPU時間($4500)だけでも高性能モデルを構築可能 → 低コスト RL 研究の可能性を実証
  • オープンソースコミュニティとともに、RL ベース推論モデルの発展を継続する予定

🔗 オープンソース資料:

1件のコメント

 
GN⁺ 2025-02-12
Hacker Newsの意見
  • このモデルは特定の問題を解くためにベンチマーク向けに調整されており、他のタスクではO1-Previewと比べて性能が劣る。特にこの問題を解きたいのでなければ注目する価値はない。しかし、それでも印象的ではある
  • 小さな強化モデルが勝つだろう。私たちの文明、会社、チームを見ればわかる。専門化された人が大勢いるのであって、単一の巨大な天才がいるわけではない
  • 現在のベンチマークへの過度な強調が問題だ。理想的には、ユーザーKPIと比較してベンチマークすべきだ
  • 重要なのは、特定のタスクで強力な性能を発揮できる1Bモデルを訓練するための、簡単で信頼できる定石があることだ。以前はこういうものはなかった。エッジデバイスははるかに賢くなるだろう
  • 私はとても世間知らずかもしれないが、このベンチマークを信頼している人はいるのだろうか。これらに意味はあるのだろうか。あまりにも簡単に操作できそうで、モデル同士を正確に比較できる方法には感じられない。ベンチマークに似てはいるがモデルが見たことのない問題を導入すると、性能がかなり低下するように思える
  • 新しい「推論」モデルをテストできる、良くてシンプルなプロンプトはあるだろうか。「strawberry という単語の中の R の文字を数えろ」は少し退屈だ
  • 私はOllamaと最小の量子化GGUF版(769MB)を使って、これをローカルで試している
  • ここで得られた回答: https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52 を確認したあとで正しい答えを得た。ただし、始めるときに重大なミスを犯していた
  • CoTモデルは外部関数を呼び出せるのだろうか。電卓にアクセスできるならどうだろうか
  • このやり方で検閲されていないモデルを手に入れられるなら、本当に素晴らしいだろう
  • 実際かなりばかげている。ASCIIシーケンスを解読しろと言ったら、でたらめな答えを返してきた。phi-4 Q4を試したら正解した。9GB 対 2GB(推論)。2GBには十分な情報を詰め込めないので、一般的な数学の問題を解いたり、訓練データに何が入っていたかを知ったりする以外には、あまり役に立たない気がする
  • 大学にいたころ、これは正直オーバーフィッティングと呼ばれていた。評価セット以外ではうまく機能しないように見える