22 ポイント 投稿者 xguru 2025-01-17 | 1件のコメント | WhatsAppで共有
  • Sky-T1-32B-Previewは、o1-previewに近い水準の性能を発揮する推論・コーディングモデルで、わずか$450(約65万円)の低コストで訓練された
  • すべてのコードがオープンソースとして提供されており、誰でも再現・改善が可能
    • o1やGemini 2.0のような高性能推論モデルは複雑なタスクを解決できる一方で、技術的な詳細やモデル重みは非公開のままとなっている

完全オープンソース: ともに発展する

  • Sky-T1-32B-Previewはすべての詳細情報をオープンソース化:

作り方(Recipes)

データ準備プロセス

  • QwQ-32B-Previewモデルを使ってデータを生成し、多様なドメインをカバーするデータミックスを構成
  • 再構成とフォーマット改善:
    • QwQデータをGPT-4o-miniで再フォーマットし、推論モデルの学習効率を向上
    • 再フォーマットにより、コーディングデータの正確性を25%から90%以上へ向上
  • リジェクションサンプリング:
    • 数学問題: 正しい解答と比較して不正確なサンプルを除去
    • コーディング問題: データセットのユニットテストを実行して正答を確認
  • 最終データ:
    • コーディングデータ: APPsおよびTACOデータセットから5,000件
    • 数学データ: NuminaMATHのAIME、MATH、Olympiadsから10,000件
    • その他のデータ: 科学およびパズル問題1,000件

訓練プロセス

  • 訓練モデル: Qwen2.5-32B-Instruct(推論機能のないオープンソースモデル)
  • 訓練環境:
    • 8基のH100 GPUを使用、DeepSpeed Zero-3オフロード
    • 訓練時間: 19時間
    • コスト: 約**$450**(Lambda Cloud基準)
  • Llama-Factoryを使って訓練を実施

評価と結果の要約

  • Sky-T1-32B-Previewは、さまざまなベンチマークで競合モデルと比較して次のような性能を示した:
    • Math500: Sky-T1は82.4%で、o1-preview(81.4%)とほぼ同等であり、Qwen-2.5(76.2%)を大きく上回る
    • AIME2024: Sky-T1は43.3%でo1-preview(40.0%)より高く、Qwen-2.5(16.7%)と比べて圧倒的に優れている
    • LiveCodeBench (Easy): Sky-T1は86.3%でQwen-2.5(84.6%)に近く、o1-preview(92.9%)との差は小さい
    • LiveCodeBench (Medium): Sky-T1は56.8%で、o1-preview(54.9%)より高く、Qwen-2.5(40.8%)を大きく上回る
    • LiveCodeBench (Hard): Sky-T1は17.9%でo1-preview(16.3%)をわずかに上回り、Qwen-2.5(9.8%)とは大きな差がある
    • GPQA-Diamond: Sky-T1は56.8%でQwQ(52.5%)をやや上回るが、o1-preview(75.2%)よりは低い性能
  • Sky-T1-32B-Previewは数学とコーディングの両分野で強力な性能を示し、特に中程度の難易度のコーディング作業で優位性を持つ
  • 数学関連ベンチマークでも上位に入り、全体として効率的かつ強力なモデルであることを証明した。

主な発見

  • モデルサイズの重要性:
    • 7Bおよび14Bサイズのモデルでは限定的な改善しか確認されなかった
    • 32Bモデルは性能と結果の一貫性の面で圧倒的に優れていた
  • データミックスの重要性:
    • 単一ドメインのデータで訓練すると性能が低下する可能性がある
    • 数学とコーディングのデータをバランスよく混合し、両ドメインで優れた性能を達成

今後の計画

  • 効率性を維持しながら高い推論性能を発揮するモデル開発に注力
  • テスト時の効率と精度を向上させる高度な技術を研究
  • コミュニティとの協力を通じて、より進化したモデルの開発を目指す

1件のコメント

 
kimjoin2 2025-01-17

なぜ…なぜ SKT-T1 と読んでしまうんだろう