DeepSeekのR1-ZeroおよびR1の分析
(arcprize.org)- ARC Prize Foundationは、AGI(汎用人工知能)を定義し、測定し、新しいアイデアを促進することを目標としている
- AGIはまだ達成されておらず、純粋なLLM(大規模言語モデル)の事前学習の拡大が解決策ではない
- 2023〜24年の間にLLMスタートアップには約200億ドルが投資された一方で、AGIスタートアップには約2億ドルしか投資されなかった
DeepSeekのR1-ZeroとR1の分析
- DeepSeekが発表したR1-ZeroとR1システムが、OpenAIのo1システム水準に近い結果を示した点が大きな注目を集めている
- R1-ZeroとR1はいずれもARC-AGI-1で約15〜20%程度のスコアを記録した
- GPT-4oが5%を記録したのと比べて、はるかに高いスコアである
- 最近のAI業界の主流はLLM(大規模言語モデル)の単純なスケーリングに集中してきたが、これはAGIを実現する直接的な解法ではないと見られている
- ARC Prize FoundationはARC-AGI-1というベンチマークを通じて、新しい問題を学習していない状態でも適応できるAIシステムの研究を奨励している
R1-ZeroのほうがR1より重要
- DeepSeekの研究成果としてR1-ZeroとR1が登場した
- R1-Zero、R1、OpenAIのo1(low compute)はいずれもARC-AGI-1で15〜20%の近いスコアを記録した
- 2024年末にOpenAIが公開したo3システムは、ARC-AGI-1で最大88%までスコアを高め、新しい問題を適応的に解決できることを示した
- ただしo3には非公開の部分が多く、研究者が詳細技術を把握しにくい状況である
- R1-ZeroはR1に比べて人間による直接ラベリング(SFT)を経ていない点で、将来的な価値がより大きいと考えられている
R1-Zeroが人間のボトルネックを取り除く
-
従来の推論モデルは、問題解決の過程(Chain-of-Thought、以下CoT)について、人間のラベリング(SFT)または機械の報酬(RL)を組み合わせて学習してきた
-
R1-ZeroはSFTなし、すなわち人間の専門家ラベルなしで、強化学習(RL)のみでCoTを学習する
-
ARC-AGI-1ではR1-Zeroが14%、R1が15%を記録し、ほぼ同等の性能を示した
-
MATH AIME 2024など他のベンチマークでも、R1-ZeroとR1の結果は似た傾向を示した
-
言語の混在や可読性の問題への懸念はあったが、実際のテストでは大きな incoherence もなく、数学・コーディング領域でうまく動作している
-
ここから得られる主な示唆は次のとおりである
- 人間のラベリングがなくても、特定ドメインでは正確で理解可能な推論が可能である
- R1-Zeroは強化学習だけで独自のドメイン専用トークン表現(DSL)を作り出せる
- SFTは推論範囲を広げるために依然として必要かもしれない
-
究極的に、R1-Zeroは人間に依存せず自ら学習データを生み出せるという、「人間なしボトルネック」のスケーラビリティを示している
-
以下はARC-AGI-1で各システムが記録したスコア、平均トークン数、推論コストなどを簡単に記述した内容である
- r1-zero: 14%、SFTなし、逐次推論、検索なし、平均11Kトークン、コスト約 $0.11
- r1: 15.8%、SFT適用、逐次推論、検索なし、平均6Kトークン、コスト約 $0.06
- o1(low): 20.5%、SFT適用、逐次推論、検索なし、平均7Kトークン、コスト約 $0.43
- o1(med): 31%、SFT適用、逐次推論、検索なし、平均13Kトークン、コスト約 $0.79
- o1(high): 35%、SFT適用、逐次推論、検索なし、平均22Kトークン、コスト約 $1.31
- o3(low): 75.7%、SFT適用、検索およびサンプリング使用、平均335Kトークン、コスト約 $20
- o3(high): 87.5%、SFT適用、検索およびサンプリング使用、平均57Mトークン、コスト約 $3,400
信頼性のためのコスト
- 現在のAI市場で大きく変化している流れは、「コストを多くかければ精度と信頼性を高められる」という点である
- さらに、学習コストから推論コストへと比重が移りつつある
- 推論段階で多くの計算資源を投入すれば、より正確で安定した結果を得られる
- ほとんどの企業はAIシステムの信頼性の問題のため、大規模な自動化を導入できずにいた
- ARC-AGI分野の進展がAIエージェントの信頼性を高めるとの見方があり、Anthropic、OpenAI、Appleなどもエージェント型サービスを準備している
- ユーザーは必要な精度を得るために、より多くのコストを喜んで支払う傾向を示すようになるだろう
- したがってAI推論需要ははるかに増えると予想され、それは計算資源需要の増加につながるだろう
推論こそが学習
- 以前は大規模データを収集したり、既存のLLMから合成(synthetic)データを生成して学習に利用していた
- 今では推論過程でユーザーやシステムが実際に新しい有効データを生成できるようになっている
- これは「推論が学習を兼ねる」という新しい経済学的転換を意味する
- ユーザー数の多いAIモデルはより多くの推論データを収集し、それ自体がモデル改善につながる
- もしSFT(人間によるラベリング)過程まで不要になれば、単に大きなコストを投じて検索・合成・検証を繰り返すシステムでも効率的な学習が可能になるだろう
結論
- AIシステムの推論需要が増加するにつれて、市場の再評価が継続的に起こるとみられる
- CoT方式と検索(search)技法を組み合わせたオープンソースのR1システムが登場したことで、より多くの研究者や開発者が限界を試し、イノベーションを加速できると期待される
- R1-ZeroとR1の公開は、世界のAI発展に大きく貢献するだろう
- 複数のチームがARC Prize 2025を目標にR1のようなシステムを活用する意志を示しており、今後の結果が期待される
- DeepSeekが公開したR1は、AGIへ向かう重要な手がかりを提示することで科学的進歩に貢献したという点で肯定的に評価されている
1件のコメント
Hacker Newsの意見
AIシステム開発者が新たなデータ生成によって経済的変化を起こす可能性がある。顧客がデータ生成コストを負担することで、モデルの品質を向上できる可能性がある
ベースモデルの改善は必要ない可能性があり、汎用モデルで十分かもしれない
o3システムは、新しい問題に適応するコンピュータの最初の実用的実装を示している
人間のボトルネックを取り除くという主張はあるが、数学とコンピュータサイエンスを除くほとんどの分野では、検証可能な報酬を定義するのが難しい
AI経済では2つの大きな変化が起きている
o3はAGI-1で75%を記録し、R1とo1は25%にとどまった
多くのコンピューティングが推論へ移行することは、現在のAI投資に大きな影響を与える
BasetenのMikeは、この取り組みを支援できることを誇りに思うと述べた
R1-Zeroは、人間のボトルネックがない潜在的なスケーリング体制を示している
R1はコスト対性能の面で優れた成果を示している
LLMの未来は、カスタマイズされた個別アプリにあると予測されている