450ドル以下で O1 Preview モデルを自ら訓練する

(sky.cs.berkeley.edu)

1 ポイント投稿者 GN⁺ 2025-02-22 | 1件のコメント | WhatsAppで共有

UC Berkeley NovaSky チームの Sky-T1 は、450ドル以下のコストで O1 Preview 級の推論モデルを自ら訓練できることを掲げたプロジェクト
o1 と Gemini 2.0 Flash Thinking は、長い内部思考チェーンを活用して複雑な課題で高い推論性能を示す
こうしたモデルは技術的な詳細と重みが公開されておらず、学術界やオープンソースコミュニティが再現・拡張しにくい
Still-2 や Journey のような公開重みの推論モデルの試みはあったが、主に数学分野に集中していた
NovaSky チームは、同じモデルで数学とコーディングの両方において競争力のある推論性能を達成した点を Sky-T1 の差別化要素として示している

Sky-T1 が狙う課題

Sky-T1 は UC Berkeley Sky Computing Lab の NovaSky チームが公開したプロジェクトで、O1 Preview モデルを 450ドル以下で自ら訓練することを前面に打ち出している
o1 や Gemini 2.0 Flash Thinking のような推論特化モデルは、複雑な課題を解く際に長い内部思考チェーンを生成する能力を示す
しかしこの系統のモデルは技術的な詳細やモデル重みにアクセスできず、学術界やオープンソースコミュニティが直接参加しにくい状況にある

公開重み推論モデルの流れと差別化ポイント

公開重み推論モデルの訓練の試みとして Still-2 と Journey が登場しており、これらは数学分野に焦点を当てている
NovaSky チームは、ベースモデルと instruct-tuned モデルの推論能力向上手法を探っている
Sky-T1 の取り組みは、数学だけでなくコーディングでも同じモデルで競争力のある推論性能を達成した点を強調している

1件のコメント

GN⁺ 2025-02-22

Hacker Newsのコメント

興味があれば、無料GPU付きのColabノートブックを用意してある
DeepSeekが使ったアルゴリズムであるGRPOで推論モデルをゼロから学習するノートブックと、Berkeleyチームが使った通常のファインチューニング用ノートブック
GRPO notebook for Llama 3.1 8B: https://colab.research.google.com/github/unslothai/notebooks...
General finetuning notebook: https://colab.research.google.com/github/unslothai/notebooks...
Berkeleyチームの17Kデータセット: https://huggingface.co/datasets/NovaSky-AI/Sky-T1_data_17k Hugging Faceも220Kデータセットを公開している: https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
- 無料枠のT4だと、これにどれくらい時間がかかるのか気になる
  普通のプログラマーがこういう「内部をいじってみる」作業にアクセスするのはもっとずっと難しいと思っていたが、自分でも試してみたくなるレベルに見える
名前にO1 previewを入れているのはクリックベイトっぽく見えて変だ
実際にo1 previewを再学習してダウンロードできる方法のようなものを期待していた
それに、ベンチマーク7つだけを見てO1 previewと呼ぶのは正しくない。ユースケースによってはO1 previewのほうがこのモデルよりうまくいくこともあるだろう
それでもコストが下がるのは良いことだ
- 特定の言語モデルですらなく、そのモデルのベータ版を直接指す名前なので、誠実ではないと思う。いったいなぜそうしたのか分からない
- 同意する。O1 previewという名前は少し誤解を招く
  特定のベンチマーク数個を超えた、より広い性能を期待させてしまう。コスト削減は素晴らしいが、マーケティングでは適用範囲をもっと透明に示すべきだ
競争は本当に良い
誰かがアーキテクチャを公開したというだけで、この数週間で進歩が一気に押し寄せている
学習データセットまで公開され、著作権法に縛られないなら、どこまで行けるのか想像してしまう。違法行為をしようという話ではない
ただ夢見るしかないようだ
- 「進歩が一気に押し寄せる」という表現がぴったりだ。特にMetaがモデルを何で学習したのかが明らかになった後なのでなおさら :)
- そうした学習データセットはほぼすべて著作権が絡んでいるので、決して自由にはなれない
- すでにそういう流れは進んでいて、DeepSeekはその一例に見える
  ただ、その進歩に注目を集めてくれたし、そのおかげでより多くの人が貢献し、さらにニッチな適用例を見つけるようになった
- 最近の雰囲気だと、最もホットなスタートアップを持ったら、単に法律を破って役人に賄賂を渡すものなんじゃないのか？ /s
  /sに付け加えると、以前海外に住んでいて、当時いちばん人気だったビットコインカジノを運営しており、米国人である可能性のあるプレイヤーをブロックするために莫大なお金とエネルギーを費やした。そのため大金は稼げなかった
  法律を破って永遠に隠れて暮らすにはいくら稼ぐ必要があるか計算したところ、年1,000万〜1,500万ドルは稼げそうだったが、隠れるには足りないと判断した。自分はやらかしたのだと思う
  世界一の富豪は初期にギャンブル取引の仲介で大半の金を稼ぎ、今ではあらゆる連邦機関に首を突っ込んでいる。許可を求めるより許しを請う度胸を持つべきだったようだ
実際のAIデプロイでは、推論時の計算がまだ非常に活用不足だ
多くの人が広い問題領域を推論する必要がある基盤モデルを作っているが、同じ手法をタスク別の性能改善に使っている人は十分ではない
R1のようなより大きなモデルの推論を、特定タスク向けに簡単に蒸留できる。さらに、特定のサブ問題用のカスタム思考指示を混ぜれば、ファインチューニングされたモデルがタスク別の推論とカスタムロジックを一緒に学ぶようになる
難しくないし、プロンプトの反復改善より簡単に勝てる。バグを見つければ直すこともできる
思考モデルの蒸留と、カスタム思考プロセスによる推論時ファインチューニングのためのGitHubプロジェクトを作った: https://docs.getkiln.ai/docs/guide-train-a-reasoning-model
- 孤立したタスクではなく、特定の問題領域内の柔軟なクエリ範囲向けに、ファインチューニングデータをどう構成すればよいのか気になる
  汎用的な指示チューニングに似ているが、はるかに焦点が狭い場合だ
  例えば、医師が研究文献を検索して診断を助け、仮説を確認するアプリを作るとしよう。当然、ドメイン専門家と実際のユーザーを通じて、どんなクエリを作るかを見る必要がある
  だがその後、あり得るクエリ、指示、文体や認知スタイル、フォーマット、会話の流れなどの分布を十分に代表するバランスの取れたデータセットへ持っていく過程は、アプローチが分かりにくく感じる。うっかり過学習してしまう次元が無限にあるように見える
ブログ記事が少し不明確だったので、こう理解した
QwQで学習データを作り、一部の整理はGPT-4o-miniで行った。その学習データで、非推論モデルであるQwen2.5-32B-Instructをファインチューニングした
結果としてSky-T1は推論タスクでQwQより少し劣るが、Qwen2.5よりははるかに良い
これをけなす反応もあるが、基盤モデルをファインチューニングして推論をより得意にできることを示している点で、かなり興味深いと思う
- qwen2.5のr1蒸留モデル群とも比較していたらよかったと思う
これはゼロから学習したのではなくファインチューニングなので、はるかに妥当な提案に見える
それでもこの分野に深く入り込んでいるわけではないが、ファインチューニングの詳細が気になっていた立場としては、データセットとコードの両方を入手できる点が良い
より良いURL: https://novasky-ai.github.io/posts/sky-t1/
- 以前の議論はこちら: https://news.ycombinator.com/item?id=42681417
QwQの推論トレースで学習しており、評価ではおおむねQwQより少し劣る
とてつもない成果とは言いにくい
「モデルの学習は8基のH100上でDeepSpeed Zero-3オフロードにより19時間で完了し、Lambda Cloudの料金基準で約450ドル」という部分が核心に見える

450ドル以下で O1 Preview モデルを自ら訓練する

Sky-T1 が狙う課題

公開重み推論モデルの流れと差別化ポイント

関連記事

1件のコメント

Hacker Newsのコメント