论文: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
作者: DeepSeek-AI
发表时间: 2025-01
arXiv: 2501.12948
DeepSeek-R1 证明:无需任何监督微调(SFT),仅通过大规模强化学习(RL),就能让基础模型自发涌现出长思维链(Chain-of-Thought)推理能力。R1-Zero 作为纯 RL 路线的里程碑,展示了推理能力可以是"训练出来的"而非"教出来的"。
2024-09,OpenAI 发布 o1 预览版,展示了惊人的推理能力:
但 o1 完全封闭:
社区迫切想知道:这种推理能力能否通过开源方法复现?
监督微调(SFT)路线:
现有 RL 方法:
基础模型:DeepSeek-V3-Base(671B 总参数,37B 激活参数)
训练方法:
GRPO 是 PPO 的简化变体,专为推理任务设计:
核心思想:对同一个问题采样一组回答,用组内相对质量评估替代价值网络。
# GRPO 伪代码
for each question q:
# 1. 采样 G 个回答(如 G=8)
responses = [policy.generate(q) for _ in range(G)]
# 2. 用规则验证器评分(如答案是否正确)
rewards = [verifier(r) for r in responses] # 如 [1, 0, 1, 0, 0, 1, 1, 0]
# 3. 计算组内相对优势
mean_reward = mean(rewards)
std_reward = std(rewards)
advantages = [(r - mean_reward) / (std_reward + eps) for r in rewards]
# 4. 策略梯度更新
for i, response in enumerate(responses):
loss = -log_prob(response) * advantages[i] - beta * KL_penalty
policy.update(loss)
为什么不用价值网络?
训练过程中,研究者观察到一个惊人的现象:
第 1-100 步:模型输出短答案,无推理过程
Q: 解方程 2x + 5 = 13
A: x = 4
第 500-1000 步:模型开始尝试解释,但逻辑混乱
Q: 解方程 2x + 5 = 13
A: 让我想想... 2x = 13-5 = 8, 所以 x = 4
第 2000+ 步:模型自发产生结构化推理
Q: 解方程 2x + 5 = 13
A:
1. 首先,我需要将常数项移到等式右边:2x = 13 - 5
2. 计算右边:13 - 5 = 8
3. 现在等式是 2x = 8
4. 两边除以 2:x = 4
5. 验证:2(4) + 5 = 8 + 5 = 13 ✓
所以答案是 x = 4
第 5000+ 步:模型学会自我纠正
Q: 一个复杂数学问题...
A:
1. 让我尝试方法 A...
...计算...
等等,这不对,因为...
2. 让我重新思考,尝试方法 B...
...计算...
结果看起来合理
3. 验证:...
所以最终答案是...
研究者将这种现象称为 "Aha Moment"——模型突然"顿悟"了推理的价值。
| 基准测试 | DeepSeek-V3-Base | R1-Zero | 提升幅度 |
|---|---|---|---|
| AIME 2024 | 15.6% | 71.0% | +55.4% |
| MATH-500 | 36.2% | 87.2% | +51.0% |
| GPQA Diamond | 41.3% | 65.2% | +23.9% |
关键发现:
R1-Zero 虽然强大,但存在可读性差、语言混合等问题。R1 在此基础上增加了多阶段训练:
问题:R1-Zero 的思维链格式混乱,有时中英文混杂。
解决:用数千条(非数百万!)精心设计的推理示例进行冷启动:
<think> 标签)效果:让模型学会"如何组织思维链",而非"如何推理"(推理能力来自 RL)。
与 R1-Zero 类似,但增加了语言一致性奖励:
问题:纯 RL 训练的模型在非推理任务上表现下降。
解决:
最后阶段同时优化:
不同于传统 RLHF 使用神经网络奖励模型(容易 hack),R1 使用确定性规则:
| 任务类型 | 验证规则 | 奖励 |
|---|---|---|
| 数学题 | 最终答案是否等于标准答案 | 1/0 |
| 编程题 | 代码是否通过所有测试用例 | 1/0 |
| 逻辑题 | 结论是否符合逻辑规则 | 1/0 |
优势:
局限:
R1 使用结构化模板组织推理:
<think>
1. 理解问题:...
2. 制定策略:...
3. 执行计算:...
- 步骤 3a:...
- 步骤 3b:...
4. 验证结果:...
- 方法 A 验证:...
- 方法 B 验证:...
5. 反思:...
- 可能的错误点:...
- 替代思路:...
</think>
<answer>
最终答案
</answer>
训练技巧:
R1 的一个独特能力是根据问题难度自动调整思维链长度:
| 问题难度 | 思维链长度 | 示例 |
|---|---|---|
| 简单 | 100-300 token | "2+2=4" |
| 中等 | 500-1000 token | 代数方程求解 |
| 困难 | 2000-5000 token | 几何证明 |
| 极难 | 5000-10000 token | 组合数学竞赛题 |
机制:RL 奖励只关心最终答案正确性,模型自发学会"投入更多计算资源到困难问题"。
| 基准测试 | GPT-4o | o1-preview | DeepSeek-V3 | R1-Zero | R1 |
|---|---|---|---|---|---|
| AIME 2024 | 9.3% | 44.6% | 15.6% | 71.0% | 79.8% |
| MATH-500 | 74.6% | 85.5% | 36.2% | 87.2% | 90.2% |
| GPQA Diamond | 53.6% | 75.2% | 41.3% | 65.2% | 71.5% |
| Codeforces | 21.0% | 56.0% | 28.0% | 55.0% | 64.0% |
| 基准测试 | R1-Zero | R1 | 说明 |
|---|---|---|---|
| MMLU | 78.5% | 85.2% | 通用知识 |
| IFEval | 72.0% | 83.5% | 指令遵循 |
| AlpacaEval 2.0 | 65.0% | 87.2% | 开放对话 |
| C-Eval | 72.0% | 82.5% | 中文知识 |
R1 通过多阶段训练,在保持推理能力的同时,恢复了通用任务表现。
DeepSeek-R1 完全开源:
R1 发布后,社区迅速跟进:
| 项目 | 机构 | 特点 |
|---|---|---|
| Open-R1 | Hugging Face | 完全复现 R1 训练流程 |
| TinyZero | 社区 | 用 1B 模型验证 R1-Zero 现象 |
| SimpleRL | 清华 | 简化版 GRPO,更易复现 |
| Kimi k1.5 | 月之暗面 | 类似方法,长思维链 |
| QwQ | 阿里 | Qwen 模型的推理版本 |
R1 团队用 R1 生成的 80 万条推理数据,蒸馏到小模型:
| 模型 | 基础模型 | AIME 2024 | MATH-500 |
|---|---|---|---|
| Qwen-2.5-1.5B | 原始 | 8.0% | 22.5% |
| Qwen-2.5-1.5B + R1 蒸馏 | 蒸馏 | 28.0% | 52.0% |
| Qwen-2.5-7B | 原始 | 12.5% | 35.0% |
| Qwen-2.5-7B + R1 蒸馏 | 蒸馏 | 55.0% | 72.0% |
| Qwen-2.5-32B | 原始 | 25.0% | 52.0% |
| Qwen-2.5-32B + R1 蒸馏 | 蒸馏 | 72.0% | 85.0% |
关键发现:
R1-Zero 的核心启示:
这类似于 AlphaGo 的启示:围棋策略可以通过自我对弈学习,而非依赖人类棋谱。
R1 的成功关键在于基于规则的验证器:
开放问题:如何让模型在开放式任务(创意写作、伦理推理)中也展现类似的自我提升?
R1 的思维链本质上是测试时的计算扩展:
这与传统 LLM 的"知识检索"模式不同:
R1 的开源策略产生了深远影响:
| 局限 | 说明 |
|---|---|
| 可验证任务限制 | 纯 RL 目前只在数学/代码/逻辑上有效 |
| 计算成本高 | 长思维链使推理速度降低 5-10 倍 |
| 可读性问题 | 思维链有时冗长、重复、包含无效尝试 |
| 安全性 | 纯 RL 可能产生有害内容(需安全 RL 约束) |
| 模型 | 角色 | 与 R1 的关系 |
|---|---|---|
| DeepSeek-V3 | 基础模型 | R1 的 RL 训练基础 |
| R1-Zero | 纯 RL 实验 | 证明 RL 可以激发推理 |
| R1 | 生产模型 | 多阶段训练,平衡推理与通用能力 |
| R1-Distill | 小模型 | 通过蒸馏获得推理能力 |
解读日期:2026-05-20
解读人:Lucy
关联页面:[[ai/models/deepseek|DeepSeek 系列模型总览]]、[[ai/papers/deepseek-v2|DeepSeek-V2 论文解读]]