-
DeepSeek-R1: LLMの推論能力強化
- DeepSeek-R1-ZeroとDeepSeek-R1という第1世代の推論モデルを紹介
- DeepSeek-R1-Zeroは大規模な強化学習によって訓練され、教師ありファインチューニングなしでも優れた推論能力を示す
- しかし、可読性の問題や言語混在といった課題に直面
- これらの問題を解決し、推論性能を向上させるため、多段階学習と強化学習前の初期データ利用を含むDeepSeek-R1を導入
- DeepSeek-R1はOpenAI-o1-1217と同等の性能を達成
- 研究コミュニティ支援のため、DeepSeek-R1-Zero、DeepSeek-R1、およびQwenとLlamaをベースに蒸留した6つの高密度モデル(1.5B、7B、8B、14B、32B、70B)をオープンソースで提供
-
主題と引用
- 主題: 計算と言語 (cs.CL); 人工知能 (cs.AI); 機械学習 (cs.LG)
- 引用: arXiv:2501.12948 [cs.CL]
-
提出履歴
- 提出者: Wenfeng Liang
- 提出日: 2025年1月22日
-
アクセス方法
- PDF、HTML、TeXソースなどさまざまな形式で論文にアクセス可能
-
参考文献と引用ツール
-
コード、データ、メディア
-
arXivLabsに関する情報
1件のコメント
Hacker Newsの意見
DeepSeek V3の論文は必読の事前資料と見なされている
Ollamaのr1-14bモデルを使ってみたところ、モデルがリアルタイムでさまざまなアプローチを試し、代替案を選ぶ様子が人間の行動を思わせる
DeepSeek V3は、Claude Sonnetに問題が生じたタイミングでちょうどよく登場した
DeepSeekのチャット機能はChatGPT Proより使いやすい
GPT-O1モデルの思考過程がモデル内部で行われていることに驚いた
DeepSeek R1は性能だけでなく、小型の蒸留モデルも印象的だ
Larry EllisonとMasayoshi Sonは、ASIを通じて不老長寿を目指している
Arxivで100人を超える著者がチーム名義で論文を発表している