Sky-T1: $450でo1 preview級の高性能推論モデルを訓練する

xguru · 2025-01-17T09:45:03+09:00

Sky-T1-32B-Previewは、o1-previewに近い水準の性能を発揮する推論・コーディングモデルで、わずか$450（約65万円）の低コストで訓練されたすべてのコードがオープンソースとして提供されており、誰でも再現・改善が可能 o1やGemini 2.0のような高性能推論モデルは複雑なタスクを解決できる一方で、技術的な詳細やモデル重みは非公開のままとなっている完全オープンソース: ともに発展する Sky-T1-32B-Previewはすべての詳細情報をオープンソース化: インフラ: データ構築、モデル訓練、評価のための統合リポジトリデータ: 17,000件の訓練データを提供技術的詳細: 技術レポートとwandbログモデル重み: 32Bサイズのモデル重み作り方(Recipes) データ準備プロセス QwQ-32B-Previewモデルを使ってデータを生成し、多様なドメインをカバーするデータミックスを構成再構成とフォーマット改善: QwQデータをGPT-4o-miniで再フォーマットし、推論モデルの学習効率を向上再フォーマットにより、コーディングデータの正確性を25%から90%以上へ向上リジェクションサンプリング: 数学問題: 正しい解答と比較して不正確なサンプルを除去コーディング問題: データセットのユニットテストを実行して正答を確認最終データ: コーディングデータ: APPsおよびTACOデータセットから5,000件数学データ: NuminaMATHのAIME、MATH、Olympiadsから10,000件その他のデータ: 科学およびパズル問題1,000件訓練プロセス訓練モデル: Qwen2.5-32B-Instruct（推論機能のないオープンソースモデル）訓練環境: 8基のH100 GPUを使用、DeepSpeed Zero-3オフロード訓練時間: 19時間コスト: 約**$450**（Lambda Cloud基準） Llama-Factoryを使って訓練を実施評価と結果の要約 Sky-T1-32B-Previewは、さまざまなベンチマークで競合モデルと比較して次のような性能を示した: Math500: Sky-T1は82.4%で、o1-preview（81.4%）とほぼ同等であり、Qwen-2.5（76.2%）を大きく上回る AIME2024: Sky-T1は43.3%でo1-preview（40.0%）より高く、Qwen-2.5（16.7%）と比べて圧倒的に優れている LiveCodeBench (Easy): Sky-T1は86.3%でQwen-2.5（84.6%）に近く、o1-preview（92.9%）との差は小さい LiveCodeBench (Medium): Sky-T1は56.8%で、o1-preview（54.9%）より高く、Qwen-2.5（40.8%）を大きく上回る LiveCodeBench (Hard): Sky-T1は17.9%でo1-preview（16.3%）をわずかに上回り、Qwen-2.5（9.8%）とは大きな差がある GPQA-Diamond: Sky-T1は56.8%でQwQ（52.5%）をやや上回るが、o1-preview（75.2%）よりは低い性能 Sky-T1-32B-Previewは数学とコーディングの両分野で強力な性能を示し、特に中程度の難易度のコーディング作業で優位性を持つ数学関連ベンチマークでも上位に入り、全体として効率的かつ強力なモデルであることを証明した。主な発見モデルサイズの重要性: 7Bおよび14Bサイズのモデルでは限定的な改善しか確認されなかった 32Bモデルは性能と結果の一貫性の面で圧倒的に優れていたデータミックスの重要性: 単一ドメインのデータで訓練すると性能が低下する可能性がある数学とコーディングのデータをバランスよく混合し、両ドメインで優れた性能を達成今後の計画効率性を維持しながら高い推論性能を発揮するモデル開発に注力テスト時の効率と精度を向上させる高度な技術を研究コミュニティとの協力を通じて、より進化したモデルの開発を目指す

(novasky-ai.github.io)

22 ポイント投稿者 xguru 2025-01-17 | 1件のコメント | WhatsAppで共有

Sky-T1-32B-Previewは、o1-previewに近い水準の性能を発揮する推論・コーディングモデルで、わずか$450（約65万円）の低コストで訓練された
すべてのコードがオープンソースとして提供されており、誰でも再現・改善が可能
- o1やGemini 2.0のような高性能推論モデルは複雑なタスクを解決できる一方で、技術的な詳細やモデル重みは非公開のままとなっている

完全オープンソース: ともに発展する

Sky-T1-32B-Previewはすべての詳細情報をオープンソース化:
- インフラ: データ構築、モデル訓練、評価のための統合リポジトリ
- データ: 17,000件の訓練データを提供
- 技術的詳細: 技術レポートとwandbログ
- モデル重み: 32Bサイズのモデル重み

作り方(Recipes)

データ準備プロセス

QwQ-32B-Previewモデルを使ってデータを生成し、多様なドメインをカバーするデータミックスを構成
再構成とフォーマット改善:
- QwQデータをGPT-4o-miniで再フォーマットし、推論モデルの学習効率を向上
- 再フォーマットにより、コーディングデータの正確性を25%から90%以上へ向上
リジェクションサンプリング:
- 数学問題: 正しい解答と比較して不正確なサンプルを除去
- コーディング問題: データセットのユニットテストを実行して正答を確認
最終データ:
- コーディングデータ: APPsおよびTACOデータセットから5,000件
- 数学データ: NuminaMATHのAIME、MATH、Olympiadsから10,000件
- その他のデータ: 科学およびパズル問題1,000件

訓練プロセス

訓練モデル: Qwen2.5-32B-Instruct（推論機能のないオープンソースモデル）
訓練環境:
- 8基のH100 GPUを使用、DeepSpeed Zero-3オフロード
- 訓練時間: 19時間
- コスト: 約**$450**（Lambda Cloud基準）
Llama-Factoryを使って訓練を実施

評価と結果の要約

Sky-T1-32B-Previewは、さまざまなベンチマークで競合モデルと比較して次のような性能を示した:
- Math500: Sky-T1は82.4%で、o1-preview（81.4%）とほぼ同等であり、Qwen-2.5（76.2%）を大きく上回る
- AIME2024: Sky-T1は43.3%でo1-preview（40.0%）より高く、Qwen-2.5（16.7%）と比べて圧倒的に優れている
- LiveCodeBench (Easy): Sky-T1は86.3%でQwen-2.5（84.6%）に近く、o1-preview（92.9%）との差は小さい
- LiveCodeBench (Medium): Sky-T1は56.8%で、o1-preview（54.9%）より高く、Qwen-2.5（40.8%）を大きく上回る
- LiveCodeBench (Hard): Sky-T1は17.9%でo1-preview（16.3%）をわずかに上回り、Qwen-2.5（9.8%）とは大きな差がある
- GPQA-Diamond: Sky-T1は56.8%でQwQ（52.5%）をやや上回るが、o1-preview（75.2%）よりは低い性能
Sky-T1-32B-Previewは数学とコーディングの両分野で強力な性能を示し、特に中程度の難易度のコーディング作業で優位性を持つ
数学関連ベンチマークでも上位に入り、全体として効率的かつ強力なモデルであることを証明した。

主な発見

モデルサイズの重要性:
- 7Bおよび14Bサイズのモデルでは限定的な改善しか確認されなかった
- 32Bモデルは性能と結果の一貫性の面で圧倒的に優れていた
データミックスの重要性:
- 単一ドメインのデータで訓練すると性能が低下する可能性がある
- 数学とコーディングのデータをバランスよく混合し、両ドメインで優れた性能を達成

今後の計画

効率性を維持しながら高い推論性能を発揮するモデル開発に注力
テスト時の効率と精度を向上させる高度な技術を研究
コミュニティとの協力を通じて、より進化したモデルの開発を目指す

1件のコメント

kimjoin2 2025-01-17

なぜ…なぜ SKT-T1 と読んでしまうんだろう