【推理llm论文精度】DeepSeek-R1：强化学习驱动LLM推理能力飞跃

最近deepseek R1模型大火，正好复习一下他家的技惊四座的论文https://arxiv.org/pdf/2501.12948
在这里插入图片描述

近年来，大型语言模型（LLM）在推理能力上取得了显著进展，但如何进一步有效提升仍然是研究热点。DeepSeek-AI发布了 DeepSeek-R1 论文，探索了**强化学习（RL）**在激发LLM推理潜力方面的新方法，并开源了模型和相关资源。

一、背景：后训练与推理能力提升（提出问题：如何超越openai的o1模型）

后训练已成为提升LLM推理能力的关键环节。OpenAI的o1系列模型通过推理时缩放和思维链（CoT），在推理任务上取得突破。然而，如何有效进行推理时缩放仍是开放问题。

此前研究探索了奖励模型、强化学习、搜索算法等方法，但通用推理性能仍有提升空间。DeepSeek-R1的目标是探索纯强化学习提升LLM推理能力的可能性，关注LLM在无监督数据下的自我进化。

二、DeepSeek-R1-Zero：从零开始的纯RL探索（利器1： RL引导V3模型出现自我进化）

DeepSeek-R1-Zero是DeepSeek-AI的首个纯RL推理模型，完全不依赖监督微调（SFT），直接在 DeepSeek-V3-Base 上应用RL。

RL算法：GRPO

DeepSeek-R1-Zero采用Group Relative Policy Optimization (GRPO)算法，节省RL训练成本。GRPO避免了传统的评论员模型，通过组得分估计基线，目标函数如下：

J_GRPO(θ) = E[q ~ P(Q), {o_i}_{i=1}^G ~ π_{θold}(O|q)] [ (1/G) * ∑_{i=1}^G (min(clip(π_θ(o_i|q) / π_{θold}(o_i|q)), 1-ε, 1+ε) * A_i - β * D_{KL}(π_θ || π_{ref})) ]

奖励模型：规则驱动

奖励模型采用规则驱动方式，包含：

准确率奖励：评估答案正确性，规则驱动验证。
格式奖励：强制模型思考过程置于<think>和</think>标签内。

训练模版：引导思考

训练模版引导模型先输出思考过程，再给出答案，结构如下：

A conversation between User and Assistant... <think> reasoning process here </think> <answer> answer here </answer>. User: prompt. Assistant:

性能与自我进化

DeepSeek-R1-Zero展现了自我进化能力，推理能力随RL训练稳步提升。在AIME 2024测试中，pass@1分数从15.6%跃升至71.0%，媲美OpenAI-01-0912。训练中还出现**“顿悟时刻”**，模型学会分配更多思考时间，提升解题能力。

局限性

DeepSeek-R1-Zero存在可读性差和语言混合问题。

三、DeepSeek-R1：冷启动与多阶段RL（利器2：多阶段训练，推理能力起飞，瞬间兼顾通用能力）

DeepSeek-R1在Zero基础上，引入冷启动数据和多阶段训练，旨在提升性能并解决Zero的局限性。

冷启动

DeepSeek-R1收集少量高质量长CoT数据进行微调，作为RL初始actor，提升训练稳定性。冷启动数据强调可读性，采用格式 | special_token | <reasoning_process> | special_token | <summary>。

推理导向RL

在冷启动微调后，进行与Zero相同的RL训练，重点增强推理能力。引入语言一致性奖励，缓解语言混合问题，最终奖励结合准确率和语言一致性。

拒绝采样与SFT

RL收敛后，使用checkpoint收集SFT数据，扩展到写作、角色扮演等通用任务，提升模型泛化能力。SFT数据包括：

推理数据：拒绝采样生成，包含生成奖励模型辅助判断的数据，过滤低质量CoT。
非推理数据：复用DeepSeek-V3 pipeline和SFT数据，少量CoT用于复杂任务。

使用约80万SFT数据微调DeepSeek-V3-Base。

面向所有场景的RL

二次RL阶段，提升模型的helpfulness和harmlessness。结合规则驱动（推理数据）和奖励模型（通用数据），训练目标兼顾推理能力和安全对齐。

四、蒸馏：赋予小型模型推理能力（不止拉升自己模型推理能力，顺便提拉一下同行）

为使小型模型具备推理能力，DeepSeek-AI采用蒸馏技术，使用DeepSeek-R1数据微调Qwen和Llama系列。实验表明，蒸馏显著提升小型模型推理能力，例如DeepSeek-R1-Distill-Qwen-7B超越QwQ-32B-Preview。DeepSeek-AI开源了蒸馏模型，仅SFT，未包含RL阶段，旨在展示蒸馏有效性。