← 返回题库
训练与微调困难

GRPO 与 PPO 区别?为何 DeepSeek-R1 用 GRPO?

#GRPO#PPO#可验证奖励#critic 免除

题目

DeepSeek-R1 采用 GRPO 替代 PPO 做强化学习。请说明 GRPO 与 PPO 的核心区别,以及它为何适合推理任务。

参考答案

PPO 的流程:策略模型生成回答 → 奖励模型打分 → 同时训练一个 critic(价值网络) 估计基线 → 用 GAE 计算优势 AA → clipped surrogate loss 更新策略。

PPO 的痛点

  1. 需训 critic:critic 与策略同等大小,显存翻倍。
  2. critic 难训:价值函数估计偏差大,尤其在推理任务上奖励稀疏。
  3. 依赖 RM:人工偏好 RM 易被 hacking。

GRPO(Group Relative Policy Optimization)核心改动

  1. 去掉 critic:对同一 prompt 采样一组 GG 个回答 {o1,,oG}\{o_1,\dots,o_G\},用组内奖励的归一化作为基线:
Ai=rimean(r1,,rG)std(r1,,rG)A_i = \frac{r_i - \text{mean}(r_1,\dots,r_G)}{\text{std}(r_1,\dots,r_G)}

无需 critic,省一半显存。

  1. 可用可验证奖励(RLVR):奖励不必来自 RM,可直接来自程序验证

    • 数学题:答案是否正确
    • 代码题:是否通过测试用例
    • 格式约束:是否遵循 <think> 标签格式
  2. 保留 KL 约束:仍用 KL 散度约束策略与参考模型偏离。

为何适合推理任务

  • 推理任务(数学、代码、逻辑)有客观正确答案,可用程序验证而非人工偏好——RLVR 天然适配。
  • 推理过程长、奖励稀疏,critic 估计不准,GRPO 的组内基线更稳健。
  • DeepSeek-R1 用纯 RL(GRPO + RLVR)让模型自发涌现长思维链与反思能力,无需 SFT 冷启动。

对比表

维度PPOGRPO
Critic需要不需要(组内基线)
显存2× 策略1× 策略
奖励来源RM(偏好)RM 或可验证奖励
适合任务通用对齐推理/代码/数学
代表GPT-3.5 RLHFDeepSeek-R1

面试加分点

  • 指出 GRPO 本质是 PPO 的 critic-free 变体,思路与 REINFORCE 的 baseline 接近,但用组内归一化降方差。
  • DeepSeek-R1 的 R1-Zero 直接从基座模型做 GRPO,不做 SFT,仍能涌现推理能力——这是它最具影响力的发现。
  • DPO 跳过 RL,GRPO 保留 RL 但简化,二者是当前对齐的主流替代 PPO 方案。

出处:头条《2026 年面向 LLM 的 RL 方法总结:从 PPO 到 DPO 到 GRPO,再到多智能体》、DeepSeek-R1 技术报告。

内容来源

整理自头条《2026 年面向 LLM 的 RL 方法总结:从 PPO 到 DPO 到 GRPO》及 DeepSeek-R1 论文

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。