DeepSeek-R1: 強化学習による大規模言語モデルの推論能力向上

(arxiv.org)

3 ポイント投稿者 GN⁺ 2025-01-26 | 1件のコメント | WhatsAppで共有

DeepSeek-R1: LLMの推論能力強化
- DeepSeek-R1-ZeroとDeepSeek-R1という第1世代の推論モデルを紹介
- DeepSeek-R1-Zeroは大規模な強化学習によって訓練され、教師ありファインチューニングなしでも優れた推論能力を示す
- しかし、可読性の問題や言語混在といった課題に直面
- これらの問題を解決し、推論性能を向上させるため、多段階学習と強化学習前の初期データ利用を含むDeepSeek-R1を導入
- DeepSeek-R1はOpenAI-o1-1217と同等の性能を達成
- 研究コミュニティ支援のため、DeepSeek-R1-Zero、DeepSeek-R1、およびQwenとLlamaをベースに蒸留した6つの高密度モデル（1.5B、7B、8B、14B、32B、70B）をオープンソースで提供
主題と引用
- 主題: 計算と言語 (cs.CL); 人工知能 (cs.AI); 機械学習 (cs.LG)
- 引用: arXiv:2501.12948 [cs.CL]
提出履歴
- 提出者: Wenfeng Liang
- 提出日: 2025年1月22日
アクセス方法
- PDF、HTML、TeXソースなどさまざまな形式で論文にアクセス可能
参考文献と引用ツール
- 各種参考文献および引用ツールを提供
コード、データ、メディア
- 関連コードとデータを提供
arXivLabsに関する情報
- arXivLabsの説明およびサポート情報を提供

1件のコメント

GN⁺ 2025-01-26

Hacker Newsの意見

DeepSeek V3の論文は必読の事前資料と見なされている
- R1 + Sonnetの組み合わせが他の組み合わせより優れている
- 独立した再現研究が各所で進められている
- R1の蒸留は非常に容易で、頻繁に行われるだろう
- DeepSeek-R1はシリコンバレーで大きな反響を呼んでいる
Ollamaのr1-14bモデルを使ってみたところ、モデルがリアルタイムでさまざまなアプローチを試し、代替案を選ぶ様子が人間の行動を思わせる
DeepSeek V3は、Claude Sonnetに問題が生じたタイミングでちょうどよく登場した
- DeepSeekは価格が非常に安く、それが大きな利点になっている
- AiderとCursorを完全にDeepSeekへ切り替えた
DeepSeekのチャット機能はChatGPT Proより使いやすい
- モデルの思考過程を読めるため、デバッグしやすい
GPT-O1モデルの思考過程がモデル内部で行われていることに驚いた
- OpenAIがO1の思考過程を公開するのか気になる
DeepSeek R1は性能だけでなく、小型の蒸留モデルも印象的だ
- Qwenベースの7b蒸留モデルも素晴らしい
- 32b蒸留モデルが家庭用サーバーの標準モデルとして使われている
Larry EllisonとMasayoshi Sonは、ASIを通じて不老長寿を目指している
- ASI開発のために莫大な投資を行っている
Arxivで100人を超える著者がチーム名義で論文を発表している
- チームワークと士気の向上に寄与している

DeepSeek-R1: 強化学習による大規模言語モデルの推論能力向上

DeepSeek-R1: LLMの推論能力強化

主題と引用

提出履歴

アクセス方法

参考文献と引用ツール

コード、データ、メディア

arXivLabsに関する情報

関連記事

1件のコメント

Hacker Newsの意見