R1とその他すべてについての解説

(timkellogg.me)

41 ポイント投稿者 GN⁺ 2025-01-27 | 9件のコメント | WhatsAppで共有

突然現れたR1、そしてo1やo3など急速に変化するものを理解するための現状整理

タイムライン

2024年9月12日: o1-preview リリース
2024年12月5日: o1正式版および o1-pro リリース
2024年12月20日: o3発表（ARC-AGI通過、「AGI」として注目を集める）
2024年12月26日: DeepSeek V3 リリース
2025年1月20日: DeepSeek R1 リリース（o1に近い性能でオープンソース）
2025年1月25日: 香港大学の研究チームがR1の結果の再現に成功
2025年1月25日: HuggingfaceでR1を再現した完全オープンソースの open-r1 プロジェクトを発表
明確にしておくと
- o1、o3、R1はすべて推論（Reasoning）モデル
- DeepSeek V3はLLM（基盤モデル）であり、推論モデルはこれをファインチューニングして作られる
- ARC-AGI-1は流動性知能（fluid intelligence）に関する最もシンプルで基本的な評価。失格は、未知の状況に適応したり問題を解決したりする能力がほぼ全面的に欠けていることを意味する

# Reasoning & Agents

推論モデル != Agents

推論（Reasoning）モデルは、回答を生成する前に「考える」過程を経るモデル
- LLMはトークンを生成することで思考する
- そのため私たちは、モデルが正解を見つけられるよう、大量のトークンを生成するよう訓練している
AIエージェント（Agent）は2つの要素で定義される
- 意思決定とタスク完了のための Autonomy（agency）
- 外部世界と相互作用（Interact）する能力
LLMや推論モデルそれ自体はトークンを生成するだけなので、この2つの機能を果たせない
- 実際に意思決定を行い、相互作用の機能を提供するにはソフトウェアが必要
エージェントはAIのシステム。世界と自律的に相互作用できるように複数のモデルとソフトウェアを組み合わせたもの。ハードウェアも同様。

推論は重要

推論モデルがエージェントと混同される理由は、現在は推論がボトルネックになっているから
タスクを計画し、監督し、検証し、賢くなるためには推論能力が不可欠
推論能力なしではエージェントは作れないが、推論ベンチマークが飽和状態に達すれば新たな課題が生まれる

推論はもっと安価であるべき

エージェントは数時間から数日、あるいは24/7休まず動作する
これが自律的に行動することの本質であり、そのためコストは増大する
現時点ではR1はo1より約30倍安価でありながら、同等に近い性能を提供している

# なぜR1が重要なのか

安価で、オープンソースであり、o1およびo3に近い性能を実証した点で大きな意味がある
公開文書に基づいてo1の動作方式についていくつか予測されていたが、R1の公開論文はそれらをほぼ全面的に裏付けた。つまり、o1がどのようにo3、o4へ拡張していくのかが分かるようになった
またオープンソースであるため、世界中の誰もが自分のアイデアで実行できる
過去1週間でR1を再実装した人たちのタイムラインを見れば分かる（一部は30ドルで作れたとも言っている）
イノベーションは高速かつ低コストで反復できるときに起こり、R1はそのような環境を作り出した
最も重要なのは、R1が複雑なアイデア（DPO、MCTS）の代わりに、単純なRL方式でも十分な推論性能を達成できることを示した点

# AIの発展トレンド

事前学習（Pretraining）のスケーリング限界に到達

GPT-4以降、大規模データと計算資源を単純に増やす従来の「スケーリング則」に限界が見え始めた
データ確保の問題と新しい推論方式により、以前のやり方だけでは大きな効果を出しにくくなったという評価

推論時間（Inference Time）のスケーリング則

o1やr1のような推論モデルには、「より長く考えるほど性能が向上する」傾向がある
しかし、より良い結果を得るために、具体的にどのように追加の計算を行うべきかは明確ではなかった
素朴な仮定は、思考の連鎖（CoT）が機能するというもので、モデルにCoTを行うよう訓練すればよいというものだった
問題は、どうすれば効率的に解答へ至る最短経路を見つけられるかということ
- Entropix はその一つのアイデアで、モデルの内部信号を使って最も効率的な経路を見つける
- モンテカルロ木探索（MCTS）のように、多くの経路を生成しながら最終的に1本だけを選ぶ方法もあった
CoTが最良だということが明らかになった
- R1はRLを適用したシンプルなシングルラインの chain of thought（CoT）を行っている
- おそらくo1も同じことをしていると推測できる

縮小モデル群（Down-Sized Models）

最初はGPT-4-turboで、その次がGPT-4o、Claudeシリーズやその他のLLM。いずれも2024年を通じて徐々に小型化し、低コスト化していった
推論のためには多くのトークンを生成する必要があるため、モデルサイズが小さいほど計算速度が速くなり、効率が高い
「より小さいモデル = より賢い」

強化学習（Reinforcement Learning）

R1はGRPO（Group Rewards Policy Optimization）というシンプルなRLアプローチを使って、推論時にCoTを行うようモデルを学習させた
複雑な検証器や外部LLMは不要。必要なのは、正確性と出力形式に対する基本的な報酬関数を備えたRLだけ
R1-ZeroはDeepSeekのR1バージョンで、GRPOのみを処理し、それ以外の機能はサポートしない
- R1より精度は高いが、英語や中国語など複数の言語の間を自由に行き来するため、一般的に多言語話者ではない通常のユーザーには向いていない
なぜR1-Zeroは言語間を飛び回るのか?
- 私の考えでは、「言語ごとに異なる種類の概念をより効果的に表現できるから」
- 「what’s the german word for [paragraph of text]?」というミームがある
2025年1月25日時点で、誰かが「どんなRLでもすべて可能だ」と実演してみせた
- GRPO、PPO、PRIMEをすべて試したが、どれもよく機能した
- マジックナンバーは1.5B。モデルパラメータが1.5B（15億）以上になると、どのRL手法を適用しても推論能力が発現するということ
では、どこまでスケールするのだろうか?

モデル蒸留（Model Distillation）

R1は自前の以前のチェックポイントから蒸留（distilled）されたもの
蒸留とは、ある教師（teacher）モデルが生徒モデル向けの学習データを生成することで、一般には教師のほうが生徒より大きいモデルだと想定される
- R1は同一モデルの以前のチェックポイントを使って、教師あり微調整（SFT）のための学習データを生成した
- SFTとRLを繰り返してモデルを改善した
これはどこまで進むのだろうか?
かなり前（9日前）には、GPT5が存在していてGPT4oはそれを蒸留したものにすぎないという予測があった
- この記事は、OpenAIとAnthropicが大きなモデルを訓練し、その後蒸留し、蒸留したモデルを使ってさらに大きなモデルを作るサイクルを継続しているという理論を立てている
- R1論文は、これが可能であることを概ね確認してくれたと言いたい（したがって実際に起きている可能性が高い）
だとすれば、これは非常に長く続く可能性がある
参考: 一部の実験によれば、生徒モデルが教師モデルを上回ることもありうる。実際にどの程度起こるかは確かではない
- 直感的には、蒸留によって生徒がシグナルを見つけ、より速く収束する助けになる可能性がある
- Model collapseは依然として最大の懸念事項だが、これは大部分が不要な恐れのようにも見える
- モデル崩壊は確かに常に起こりうるが、決して保証されたものではなく、逆方向に進んで生徒が教師を上回る道もある

# 2025年の展望

現在の状況:
- 事前学習は難しくなっている（死んではいない）
- 推論スケーリング
- モデルのダウンサイジング
- RLスケーリング則
- モデル蒸留によるスケーリング則
AIの進歩速度が鈍化しているようには見えない。1つのスケーリング則が鈍り、その代わりに4つの則がさらに現れた
このトレンドはしばらく加速し続けるだろう

地政学的イシュー: Distealing

「Distealing」は私が作った言葉で、モデルを「無断蒸留」すること
いまやソフトウェアは政治であり、その中心にAIがある
- AIはほぼあらゆる政治的軸で考慮されているようで、最も興味深いのは中国対アメリカ
戦略
- アメリカ: 莫大な資金支援。できるだけ早くAIという炎に資金を注ぎ込む
- 中国: 抑圧的な輸出規制のため、より優秀なエンジニアと研究者を動員して、より安価なソリューション探しに投入
- ヨーロッパ: 規制でもオープンソースAIでも、どちらでもよい
DeepSeekがo1を無断蒸留（「distealing」）したかどうかについては議論があるが、R1の複製を考慮すると、現時点では独自にR1を開発した可能性が高いと見られている
- ただし、中国の研究所がOpenAIの最高モデルを急速に追い越したという点で緊張感が漂っている
AIはまもなく（まだそうでないとしても）指数関数的な速度で能力を向上させるだろう
- 政治的・地政学的な影響は非常に大きい
- むしろ人工知能に携わる人々は、政治にもっと関心を払い、どの政策が良くてどれが悪いのかについて開かれた姿勢を持つべきだ

結論

最も重要なのは、R1が以前は不透明だった部分を明確に示してくれたこと
したがってAIの未来はより明瞭になり、そのスピードは急速に加速しているように見える

9件のコメント

xguru 2025-02-02

mammal 2025-01-27

いわゆるディスティーリングなので今さら非難するには、揺籃期のLLaMA 1時代からGPTから蒸留したAlpaca、Vicunaモデルがありましたし、今ではフロンティアラボでも互いのモデル出力で学習していないところはありません。

事実上、現在のフロンティアモデルの多くは、GPTから蒸留した近親交配的な遺伝子に、各研究室の好みに応じてRLHFを施したものです。

mammal 2025-01-27

今いちばん懸念すべきなのは、中国による無断蒸留や検閲ではなく、

DeepSeekの驚異的な効率性の背景にあるMLA、MTP、mixed precision framework、GRPOを、純粋に100%中国の大学出身者だけで作り上げたという点が衝撃です。

アメリカでは第2のスプートニク・ショックという言葉まで出てきています…

luminance 2025-01-27

distealing は distilling と書こうとしたのではないですか？

grogu 2025-01-27

著者は、無断蒸留を意味する語として、蒸留を意味する distilling と（同音の一種のしゃれとして）区別するために distealing という単語を作ったようです（本文でも言及されています）。

luminance 2025-01-27

ご説明ありがとうございます。

savvykang 2025-01-27

> Geopolitics: Distealing
> 地政学的な問題: Distealing

> I coined that term, distealing, unauthorized distillation of models. Go ahead, use it, it’s a fun word.
> 「Distealing」は私が作った言葉で、モデルの「無断蒸留」を意味する

luminance 2025-01-27

原文に内容があったのですね。ありがとうございます。

GN⁺ 2025-01-27

Hacker Newsのコメント

R1が複雑なアイデアを単純な強化学習に置き換えたという主張については、実際には強化学習と教師あり学習を混在させて用いていた。教師あり学習に使われたデータは、モデル生成ではなく人間が選別したものだった可能性がある
- R1の再現を試みる動きがあり、一部では30ドルで可能だと主張されているが、これはR1そのものではなくR1のファインチューニングかもしれない
- Hugging FaceがR1の再現を試みているが、これはかなり大きな作業であり、30ドルで片付くようなものではない
記事には誇張された内容が多く、信頼しにくい
- さまざまなモデルのベンチマークは数学やコーディングの正確さに焦点を当てているが、特定のユースケースではこうした機能は重要ではない。概念をベンチマークするのは難しい
- 蒸留によって数学やコーディング要素を取り除いたモデルを作れるのか、という疑問が出ている
R1が主要ニュースに登場したことで、混乱と警戒感を呼び起こした。中国が米国を脅かしているわけではないと説明するのは難しい
- AIの能力が指数関数的に増加するだろうという結論については、R1がオープンソースモデルとしてo1級に到達したことが唯一のデータポイントである。これは非常に関連の薄い二つの話題だ
AIはすでに推論を行っているのか、という問いが提起されている
- ARC-AGIは人間には簡単だがAIには非常に難しいベンチマークである。これを解ければAIが人間と同じことをできるという誤解がある
- ARC-AGIの創始者であるFrançois Cholletは、ARC-AGI-1がどれほど単純だったか、それを解くことが何を意味するのかについて説明している
- ARC-AGI-1を通過した場合、そのシステムがゼロではない流動知能を持っていることを示すが、システムの知能水準や人間の知能への近さを示すものではない
AIの能力がまもなく指数関数的に増加するという結論には根拠が乏しい。著者がどのようにしてこの結論に至ったのか分かればよいのだが

R1とその他すべてについての解説

タイムライン

# Reasoning & Agents

推論モデル != Agents

推論は重要

推論はもっと安価であるべき

# なぜR1が重要なのか

# AIの発展トレンド

事前学習（Pretraining）のスケーリング限界に到達

推論時間（Inference Time）のスケーリング則

縮小モデル群（Down-Sized Models）

強化学習（Reinforcement Learning）

モデル蒸留（Model Distillation）

# 2025年の展望

地政学的イシュー: Distealing

結論

関連記事

9件のコメント

Hacker Newsのコメント