s1：6ドルのR1対抗馬？

(timkellogg.me)

14 ポイント投稿者 GN⁺ 2025-02-06 | 2件のコメント | WhatsAppで共有

2月3日に公開された新しい論文 "s1: Simple test-time scaling" がAI分野で話題になっている
モデルそのものよりも、AI分野で大きな進展が起こりうることを示唆している点が重要なポイント
このモデルは最新の技術水準（SOTA）には及ばないが、ノートPCでも動作可能な小型モデル
重要なのは、複雑な内容抜きでこの技術がどのように動くのかを理解する助けになること

推論スケーリング：「Wait」、私のために！

OpenAIは「推論時間が長くなるほどLLMの性能が良くなる」と主張し、グラフを示している
基本的に、LLMはより長く"考える"ことができれば、より高い性能を発揮できる
問題は、応答前にモデルが長く“考える”ようにどう制御するかであり、どうすればそれが可能かについての説明は不足していた
s1論文はこの部分を詳しく説明しており、興味深い

LLMが推論時に "考える" とき、<think> と </think> タグの中にモデルの内部思考過程を入れておき、</think> が現れたら最終回答のために自信に満ちた権威ある口調へ切り替えるよう学習させる

s1論文では、"</think>" を "Wait" に強制置換して、モデルがより長く“悩む”ようにする単純な手法を説明している
- "</think>" を消したり置き換えたりすることで、モデルが思考を続けるよう誘導する
- 逆に突然 "</think>" を挿入する形で、推論を短く打ち切ることも可能
この方法によって、o3-mini-low や o3-mini-high のようなモデルは、それぞれ異なる平均推論時間を適用されるよう訓練されていたと推測される
- おそらく3つのモデルを訓練し、それぞれが異なる平均思考時間（訓練中に測定）を持っていたのだろう
- 結局、訓練過程はその振る舞いをモデル重みにエンコードし始める

Entropixとの関連性

s1論文で示された "Wait" 手法は、Entropixが目指していた方式と大きくは違わない
Entropix は、ロジットとアテンションのエントロピー、分散エントロピー（varentropy）を見ながらトークン選択の方法を変える技術
- "Wait" のようなトークンを通じて、モデルが自分の回答を再考するように試みたようだ
このような方式は、推論時（inference time）にも訓練時にも適用可能だと見られる

極端なデータ節約（Extreme Data Frugality）

s1モデルがわずか6ドルで開発されたと主張する理由は、小型モデルと少量のデータで訓練したため
56Kのサンプルデータの中から、最も価値の高い1Kだけを選んで使う形で進めている
- 追加データはモデル性能をまったく向上させなかった、という結論
32B規模のモデルなので、ノートPCでも動作可能
NVIDIA H100を16基、約26分使用し、そのコストは約6ドルと見積もられている
コストが低いため、多くの実験（ablation）を試すことができ、実際にさまざまな変数を少しずつ変えながら全件再訓練を繰り返した
- 例："Wait" と "Hmm" のどちらのトークンがより効果的かを直接測定
- 中核となるサンプルデータのどの部分が最も有意なシグナルを提供するかも実験

地政学的含意

AIが国家安全保障と密接に結びついているという見方がある
OpenAIやAnthropicのような企業が莫大な予算を投じる理由もここにある
s1のようにコストを下げるイノベーションが出てきた一方で、巨大資本を活用すればその分はるかに多くの試みを同時に進められる点も重要
AIの発展速度をさらに高めるため、より大きな投資が必要だという主張も出ている

Distealing（モデルの無断蒸留）

s1データセットは基本的に、別のモデル（Qwen2.5）の thought trace を利用した蒸留（distillation）の成果物
OpenAIは、DeepSeekが自社モデル o1 を無断蒸留して V3 モデルを作ったのではないかと疑っている
しかし実際には、蒸留行為を防ぐことはますます難しくなっている
- 1,000件程度のサンプルなら個人でも十分に収集可能な水準
OpenAIが最近o3モデルを直接配布せず、エージェント形式で公開した理由も、こうした無断蒸留を防ぐための試みとみられる

結論

s1の登場は、公開領域でAIがどれほど急速に進化しているかをよく示す事例
OpenAIやAnthropicのような企業は、はるかに多くの計算資源を使ってさらに速い進展を遂げる可能性が高い
s1はR1やo1をそのまま複製したものではなく、RLではなくSFT（Supervised Fine Tuning）だけでも似た可能性を開けることを示唆している
2025年にはさらに大きなイノベーションが期待されるという見方

2件のコメント

hoonix 2025-02-06

Distillation を Distealing ともじった表現が面白いですね！

GN⁺ 2025-02-06

Hacker Newsの意見

'Wait' ハックによる推論拡張が興味深い。単純な方法が性能に影響しうるという点で、コンピュータサイエンスの進歩がまるで呪文を唱えるように感じられる。こうした発想をどう始めればよいのか気になる
思考の流れがモデルに一時的な「レイヤー」を与え、テキストを処理するバッファの役割を果たしているのだとすれば、このバッファを別個のFNNとアテンション機構を持つ独立したコンテキストにするのは意味があるのではないかと思う。これは自然言語で説明するマイクロプロセスと組み合わせることで、より密度の高い「思考」の表現を提供できるはず
CoTは広く知られた技術だが、DeepSeekは計算資源の制約により、メモリ、帯域幅、並列性の最適化を見つけることに集中していた。彼らのインフラおよびソフトウェアレベルの最適化は注目に値する
現在のベンチマークは十分に強力ではないと思うし、米国のLLM研究所もインフラおよびハードウェア最適化の不足を認識しているはずだ。RLの水準と事前学習がさらに重要になっていくだろう
AIハックを通じて試した方法が研究所でも使われている点が興味深い。R1に考え続けさせるために 'Okay' に置き換える方法を使っていた
Timのブログをブックマークした。AIとニューラルネットワーク分野での進歩には驚かされる。個人的には非力なオンデバイスモデルでLLMベースのエージェントを作るのに苦労している
10,000台のH100を保有しているということは、S1より625倍多く実験できることを意味する。大企業では計算資源を浪費しがちだ
推論モデルの出力長を制御する方法が興味深い。'Wait' に置き換えることでCoTを注入し、脱獄しやすくする方法を発見した
S1に関する元の論文へのリンクを提供している
大規模な組織では多くの実験を行えず、社員は素早く結果を出すことに集中する。短期的な利益のために急いで作業を進める
LLMの出力を削り出すのは彫刻を作るようなものだ。モデルをゲームループに入れ、各ティックごとに相互作用して望む結果を得なければならない。計算資源への渇望は今後も続くだろう

s1：6ドルのR1対抗馬？

推論スケーリング：「Wait」、私のために！

Entropixとの関連性

極端なデータ節約（Extreme Data Frugality）

地政学的含意

Distealing（モデルの無断蒸留）

結論

関連記事

2件のコメント

Hacker Newsの意見