- 突然現れたR1、そしてo1やo3など急速に変化するものを理解するための現状整理
タイムライン
- 2024年9月12日: o1-preview リリース
- 2024年12月5日: o1正式版および o1-pro リリース
- 2024年12月20日: o3発表(ARC-AGI通過、「AGI」として注目を集める)
- 2024年12月26日: DeepSeek V3 リリース
- 2025年1月20日: DeepSeek R1 リリース(o1に近い性能でオープンソース)
- 2025年1月25日: 香港大学の研究チームがR1の結果の再現に成功
- 2025年1月25日: HuggingfaceでR1を再現した完全オープンソースの open-r1 プロジェクトを発表
- 明確にしておくと
- o1、o3、R1はすべて推論(Reasoning)モデル
- DeepSeek V3はLLM(基盤モデル)であり、推論モデルはこれをファインチューニングして作られる
- ARC-AGI-1は流動性知能(fluid intelligence)に関する最もシンプルで基本的な評価。失格は、未知の状況に適応したり問題を解決したりする能力がほぼ全面的に欠けていることを意味する
# Reasoning & Agents
推論モデル != Agents
- 推論(Reasoning)モデルは、回答を生成する前に「考える」過程を経るモデル
- LLMはトークンを生成することで思考する
- そのため私たちは、モデルが正解を見つけられるよう、大量のトークンを生成するよう訓練している
- AIエージェント(Agent)は2つの要素で定義される
- 意思決定とタスク完了のための Autonomy(agency)
- 外部世界と相互作用(Interact)する能力
- LLMや推論モデルそれ自体はトークンを生成するだけなので、この2つの機能を果たせない
- 実際に意思決定を行い、相互作用の機能を提供するにはソフトウェアが必要
- エージェントはAIのシステム。世界と自律的に相互作用できるように複数のモデルとソフトウェアを組み合わせたもの。ハードウェアも同様。
推論は重要
- 推論モデルがエージェントと混同される理由は、現在は推論がボトルネックになっているから
- タスクを計画し、監督し、検証し、賢くなるためには推論能力が不可欠
- 推論能力なしではエージェントは作れないが、推論ベンチマークが飽和状態に達すれば新たな課題が生まれる
推論はもっと安価であるべき
- エージェントは数時間から数日、あるいは24/7休まず動作する
- これが自律的に行動することの本質であり、そのためコストは増大する
- 現時点ではR1はo1より約30倍安価でありながら、同等に近い性能を提供している
# なぜR1が重要なのか
- 安価で、オープンソースであり、o1およびo3に近い性能を実証した点で大きな意味がある
- 公開文書に基づいてo1の動作方式についていくつか予測されていたが、R1の公開論文はそれらをほぼ全面的に裏付けた。つまり、o1がどのようにo3、o4へ拡張していくのかが分かるようになった
- またオープンソースであるため、世界中の誰もが自分のアイデアで実行できる
- 過去1週間でR1を再実装した人たちのタイムラインを見れば分かる(一部は30ドルで作れたとも言っている)
- イノベーションは高速かつ低コストで反復できるときに起こり、R1はそのような環境を作り出した
- 最も重要なのは、R1が複雑なアイデア(DPO、MCTS)の代わりに、単純なRL方式でも十分な推論性能を達成できることを示した点
# AIの発展トレンド
事前学習(Pretraining)のスケーリング限界に到達
- GPT-4以降、大規模データと計算資源を単純に増やす従来の「スケーリング則」に限界が見え始めた
- データ確保の問題と新しい推論方式により、以前のやり方だけでは大きな効果を出しにくくなったという評価
推論時間(Inference Time)のスケーリング則
- o1やr1のような推論モデルには、「より長く考えるほど性能が向上する」傾向がある
- しかし、より良い結果を得るために、具体的にどのように追加の計算を行うべきかは明確ではなかった
- 素朴な仮定は、思考の連鎖(CoT)が機能するというもので、モデルにCoTを行うよう訓練すればよいというものだった
- 問題は、どうすれば効率的に解答へ至る最短経路を見つけられるかということ
- Entropix はその一つのアイデアで、モデルの内部信号を使って最も効率的な経路を見つける
- モンテカルロ木探索(MCTS)のように、多くの経路を生成しながら最終的に1本だけを選ぶ方法もあった
- CoTが最良だということが明らかになった
- R1はRLを適用したシンプルなシングルラインの chain of thought(CoT)を行っている
- おそらくo1も同じことをしていると推測できる
縮小モデル群(Down-Sized Models)
- 最初はGPT-4-turboで、その次がGPT-4o、Claudeシリーズやその他のLLM。いずれも2024年を通じて徐々に小型化し、低コスト化していった
- 推論のためには多くのトークンを生成する必要があるため、モデルサイズが小さいほど計算速度が速くなり、効率が高い
- 「より小さいモデル = より賢い」
強化学習(Reinforcement Learning)
- R1はGRPO(Group Rewards Policy Optimization)というシンプルなRLアプローチを使って、推論時にCoTを行うようモデルを学習させた
- 複雑な検証器や外部LLMは不要。必要なのは、正確性と出力形式に対する基本的な報酬関数を備えたRLだけ
- R1-ZeroはDeepSeekのR1バージョンで、GRPOのみを処理し、それ以外の機能はサポートしない
- R1より精度は高いが、英語や中国語など複数の言語の間を自由に行き来するため、一般的に多言語話者ではない通常のユーザーには向いていない
- なぜR1-Zeroは言語間を飛び回るのか?
- 私の考えでは、「言語ごとに異なる種類の概念をより効果的に表現できるから」
- 「what’s the german word for [paragraph of text]?」というミームがある
- 2025年1月25日時点で、誰かが「どんなRLでもすべて可能だ」と実演してみせた
- GRPO、PPO、PRIMEをすべて試したが、どれもよく機能した
- マジックナンバーは1.5B。モデルパラメータが1.5B(15億)以上になると、どのRL手法を適用しても推論能力が発現するということ
- では、どこまでスケールするのだろうか?
モデル蒸留(Model Distillation)
- R1は自前の以前のチェックポイントから蒸留(distilled)されたもの
- 蒸留とは、ある教師(teacher)モデルが生徒モデル向けの学習データを生成することで、一般には教師のほうが生徒より大きいモデルだと想定される
- R1は同一モデルの以前のチェックポイントを使って、教師あり微調整(SFT)のための学習データを生成した
- SFTとRLを繰り返してモデルを改善した
- これはどこまで進むのだろうか?
- かなり前(9日前)には、GPT5が存在していてGPT4oはそれを蒸留したものにすぎないという予測があった
- この記事は、OpenAIとAnthropicが大きなモデルを訓練し、その後蒸留し、蒸留したモデルを使ってさらに大きなモデルを作るサイクルを継続しているという理論を立てている
- R1論文は、これが可能であることを概ね確認してくれたと言いたい(したがって実際に起きている可能性が高い)
- だとすれば、これは非常に長く続く可能性がある
- 参考: 一部の実験によれば、生徒モデルが教師モデルを上回ることもありうる。実際にどの程度起こるかは確かではない
- 直感的には、蒸留によって生徒がシグナルを見つけ、より速く収束する助けになる可能性がある
- Model collapseは依然として最大の懸念事項だが、これは大部分が不要な恐れのようにも見える
- モデル崩壊は確かに常に起こりうるが、決して保証されたものではなく、逆方向に進んで生徒が教師を上回る道もある
# 2025年の展望
- 現在の状況:
- 事前学習は難しくなっている(死んではいない)
- 推論スケーリング
- モデルのダウンサイジング
- RLスケーリング則
- モデル蒸留によるスケーリング則
- AIの進歩速度が鈍化しているようには見えない。1つのスケーリング則が鈍り、その代わりに4つの則がさらに現れた
- このトレンドはしばらく加速し続けるだろう
地政学的イシュー: Distealing
- 「Distealing」は私が作った言葉で、モデルを「無断蒸留」すること
- いまやソフトウェアは政治であり、その中心にAIがある
- AIはほぼあらゆる政治的軸で考慮されているようで、最も興味深いのは中国対アメリカ
- 戦略
- アメリカ: 莫大な資金支援。できるだけ早くAIという炎に資金を注ぎ込む
- 中国: 抑圧的な輸出規制のため、より優秀なエンジニアと研究者を動員して、より安価なソリューション探しに投入
- ヨーロッパ: 規制でもオープンソースAIでも、どちらでもよい
- DeepSeekがo1を無断蒸留(「distealing」)したかどうかについては議論があるが、R1の複製を考慮すると、現時点では独自にR1を開発した可能性が高いと見られている
- ただし、中国の研究所がOpenAIの最高モデルを急速に追い越したという点で緊張感が漂っている
- AIはまもなく(まだそうでないとしても)指数関数的な速度で能力を向上させるだろう
- 政治的・地政学的な影響は非常に大きい
- むしろ人工知能に携わる人々は、政治にもっと関心を払い、どの政策が良くてどれが悪いのかについて開かれた姿勢を持つべきだ
結論
- 最も重要なのは、R1が以前は不透明だった部分を明確に示してくれたこと
- したがってAIの未来はより明瞭になり、そのスピードは急速に加速しているように見える
9件のコメント
いわゆるディスティーリングなので今さら非難するには、揺籃期のLLaMA 1時代からGPTから蒸留したAlpaca、Vicunaモデルがありましたし、今ではフロンティアラボでも互いのモデル出力で学習していないところはありません。
事実上、現在のフロンティアモデルの多くは、GPTから蒸留した近親交配的な遺伝子に、各研究室の好みに応じてRLHFを施したものです。
今いちばん懸念すべきなのは、中国による無断蒸留や検閲ではなく、
DeepSeekの驚異的な効率性の背景にあるMLA、MTP、mixed precision framework、GRPOを、純粋に100%中国の大学出身者だけで作り上げたという点が衝撃です。
アメリカでは第2のスプートニク・ショックという言葉まで出てきています…
distealingはdistillingと書こうとしたのではないですか?著者は、無断蒸留を意味する語として、蒸留を意味する
distillingと(同音の一種のしゃれとして)区別するためにdistealingという単語を作ったようです(本文でも言及されています)。ご説明ありがとうございます。
> Geopolitics: Distealing
> 地政学的な問題: Distealing
> I coined that term, distealing, unauthorized distillation of models. Go ahead, use it, it’s a fun word.
> 「Distealing」は私が作った言葉で、モデルの「無断蒸留」を意味する
原文に内容があったのですね。ありがとうございます。
Hacker Newsのコメント
R1が複雑なアイデアを単純な強化学習に置き換えたという主張については、実際には強化学習と教師あり学習を混在させて用いていた。教師あり学習に使われたデータは、モデル生成ではなく人間が選別したものだった可能性がある
記事には誇張された内容が多く、信頼しにくい
R1が主要ニュースに登場したことで、混乱と警戒感を呼び起こした。中国が米国を脅かしているわけではないと説明するのは難しい
AIはすでに推論を行っているのか、という問いが提起されている
AIの能力がまもなく指数関数的に増加するという結論には根拠が乏しい。著者がどのようにしてこの結論に至ったのか分かればよいのだが