DeepSeekのR1-ZeroおよびR1の分析

(arcprize.org)

5 ポイント投稿者 GN⁺ 2025-01-30 | 1件のコメント | WhatsAppで共有

ARC Prize Foundationは、AGI（汎用人工知能）を定義し、測定し、新しいアイデアを促進することを目標としている
AGIはまだ達成されておらず、純粋なLLM（大規模言語モデル）の事前学習の拡大が解決策ではない
2023〜24年の間にLLMスタートアップには約200億ドルが投資された一方で、AGIスタートアップには約2億ドルしか投資されなかった

DeepSeekのR1-ZeroとR1の分析

DeepSeekが発表したR1-ZeroとR1システムが、OpenAIのo1システム水準に近い結果を示した点が大きな注目を集めている
R1-ZeroとR1はいずれもARC-AGI-1で約15〜20%程度のスコアを記録した
GPT-4oが5%を記録したのと比べて、はるかに高いスコアである
最近のAI業界の主流はLLM（大規模言語モデル）の単純なスケーリングに集中してきたが、これはAGIを実現する直接的な解法ではないと見られている
ARC Prize FoundationはARC-AGI-1というベンチマークを通じて、新しい問題を学習していない状態でも適応できるAIシステムの研究を奨励している

R1-ZeroのほうがR1より重要

DeepSeekの研究成果としてR1-ZeroとR1が登場した
R1-Zero、R1、OpenAIのo1（low compute）はいずれもARC-AGI-1で15〜20%の近いスコアを記録した
2024年末にOpenAIが公開したo3システムは、ARC-AGI-1で最大88%までスコアを高め、新しい問題を適応的に解決できることを示した
ただしo3には非公開の部分が多く、研究者が詳細技術を把握しにくい状況である
R1-ZeroはR1に比べて人間による直接ラベリング（SFT）を経ていない点で、将来的な価値がより大きいと考えられている

R1-Zeroが人間のボトルネックを取り除く

従来の推論モデルは、問題解決の過程（Chain-of-Thought、以下CoT）について、人間のラベリング（SFT）または機械の報酬（RL）を組み合わせて学習してきた
R1-ZeroはSFTなし、すなわち人間の専門家ラベルなしで、強化学習（RL）のみでCoTを学習する
ARC-AGI-1ではR1-Zeroが14%、R1が15%を記録し、ほぼ同等の性能を示した
MATH AIME 2024など他のベンチマークでも、R1-ZeroとR1の結果は似た傾向を示した
言語の混在や可読性の問題への懸念はあったが、実際のテストでは大きな incoherence もなく、数学・コーディング領域でうまく動作している
ここから得られる主な示唆は次のとおりである
- 人間のラベリングがなくても、特定ドメインでは正確で理解可能な推論が可能である
- R1-Zeroは強化学習だけで独自のドメイン専用トークン表現（DSL）を作り出せる
- SFTは推論範囲を広げるために依然として必要かもしれない
究極的に、R1-Zeroは人間に依存せず自ら学習データを生み出せるという、「人間なしボトルネック」のスケーラビリティを示している
以下はARC-AGI-1で各システムが記録したスコア、平均トークン数、推論コストなどを簡単に記述した内容である
- r1-zero: 14%、SFTなし、逐次推論、検索なし、平均11Kトークン、コスト約 $0.11
- r1: 15.8%、SFT適用、逐次推論、検索なし、平均6Kトークン、コスト約 $0.06
- o1(low): 20.5%、SFT適用、逐次推論、検索なし、平均7Kトークン、コスト約 $0.43
- o1(med): 31%、SFT適用、逐次推論、検索なし、平均13Kトークン、コスト約 $0.79
- o1(high): 35%、SFT適用、逐次推論、検索なし、平均22Kトークン、コスト約 $1.31
- o3(low): 75.7%、SFT適用、検索およびサンプリング使用、平均335Kトークン、コスト約 $20
- o3(high): 87.5%、SFT適用、検索およびサンプリング使用、平均57Mトークン、コスト約 $3,400

信頼性のためのコスト

現在のAI市場で大きく変化している流れは、「コストを多くかければ精度と信頼性を高められる」という点である
さらに、学習コストから推論コストへと比重が移りつつある
推論段階で多くの計算資源を投入すれば、より正確で安定した結果を得られる
ほとんどの企業はAIシステムの信頼性の問題のため、大規模な自動化を導入できずにいた
ARC-AGI分野の進展がAIエージェントの信頼性を高めるとの見方があり、Anthropic、OpenAI、Appleなどもエージェント型サービスを準備している
ユーザーは必要な精度を得るために、より多くのコストを喜んで支払う傾向を示すようになるだろう
したがってAI推論需要ははるかに増えると予想され、それは計算資源需要の増加につながるだろう

推論こそが学習

以前は大規模データを収集したり、既存のLLMから合成（synthetic）データを生成して学習に利用していた
今では推論過程でユーザーやシステムが実際に新しい有効データを生成できるようになっている
これは「推論が学習を兼ねる」という新しい経済学的転換を意味する
ユーザー数の多いAIモデルはより多くの推論データを収集し、それ自体がモデル改善につながる
もしSFT（人間によるラベリング）過程まで不要になれば、単に大きなコストを投じて検索・合成・検証を繰り返すシステムでも効率的な学習が可能になるだろう

結論

AIシステムの推論需要が増加するにつれて、市場の再評価が継続的に起こるとみられる
CoT方式と検索（search）技法を組み合わせたオープンソースのR1システムが登場したことで、より多くの研究者や開発者が限界を試し、イノベーションを加速できると期待される
R1-ZeroとR1の公開は、世界のAI発展に大きく貢献するだろう
複数のチームがARC Prize 2025を目標にR1のようなシステムを活用する意志を示しており、今後の結果が期待される
DeepSeekが公開したR1は、AGIへ向かう重要な手がかりを提示することで科学的進歩に貢献したという点で肯定的に評価されている

1件のコメント

GN⁺ 2025-01-30

Hacker Newsの意見

AIシステム開発者が新たなデータ生成によって経済的変化を起こす可能性がある。顧客がデータ生成コストを負担することで、モデルの品質を向上できる可能性がある
- ただし、このデータが本当に高品質なのかについては懐疑的な見方がある
- 現在のSOTAモデルはGPT4レベルにとどまっており、今後2〜3年でさらに進歩する可能性がある
- 推論モデルを使ってデータを生成し、それを非推論モデルの訓練に使うのは有望なアイデアである
- しかし、推論をモデルの重みにどれだけうまく取り込めるかは未知数である
- OpenAIはすでにo3の訓練データを使って新しいモデルを訓練しているべきだった、という意見がある
ベースモデルの改善は必要ない可能性があり、汎用モデルで十分かもしれない
- 推論モデルの価格を下げ、品質を向上させることが重要である
o3システムは、新しい問題に適応するコンピュータの最初の実用的実装を示している
- ただし、OpenAIはo3を75%の公開訓練セットで訓練したと発表しており、ARC-AGIデータの性能への寄与はまだ検証されていない
人間のボトルネックを取り除くという主張はあるが、数学とコンピュータサイエンスを除くほとんどの分野では、検証可能な報酬を定義するのが難しい
AI経済では2つの大きな変化が起きている
- より多くの費用を払うことで、高い精度と信頼性を得られる
- 訓練コストが推論コストへと移行している
- これは推論需要を増加させ、コンピューティング需要を拡大させるだろう
o3はAGI-1で75%を記録し、R1とo1は25%にとどまった
多くのコンピューティングが推論へ移行することは、現在のAI投資に大きな影響を与える
- NVDAにとっては悪い知らせであり、推論中心のソリューションの方が経済性に優れている
BasetenのMikeは、この取り組みを支援できることを誇りに思うと述べた
R1-Zeroは、人間のボトルネックがない潜在的なスケーリング体制を示している
- ただし、RL方式が依然として大量の人間データを必要とするのではないかという疑問がある
R1はコスト対性能の面で優れた成果を示している
- 複雑な問題のデータ生成器としてR1を使うのは有望だと考えられている
LLMの未来は、カスタマイズされた個別アプリにあると予測されている
- AIエージェントに欲しいアプリと要件を伝えれば、バックエンドからフロントエンドまですべてを構築する
- ソフトウェアをテストしてバグを修正し、本番環境にデプロイする
- 現在のLLMは完璧ではないが、コードを自動実行・コンパイルし、エラーをLLMにフィードバックするシステムとワークフローはすでに存在する

DeepSeekのR1-ZeroおよびR1の分析

DeepSeekのR1-ZeroとR1の分析

R1-ZeroのほうがR1より重要

R1-Zeroが人間のボトルネックを取り除く

信頼性のためのコスト

推論こそが学習

結論

関連記事

1件のコメント

Hacker Newsの意見