DeepSeek Math
传送门:DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
笔者认为,本文最重要的贡献是提出了 GRPO 的强化学习算法. 通过舍弃 critic 模型,GRPO 显著减少了训练资源的使用. 当然本文还涉及数据集构建,预训练,监督微调等内容.

Structure
传统 PPO 架构. 这是一种经典的 actor-critic RL 算法.
其中
下面的 GRPO 算法省略了 value function.
与在线 RFT 相比,GRPO 通过根据奖励模型提供的奖励值独特地调整其梯度系数,从而可以根据响应的不同大小进行差异化强化与惩罚. 同时,通过直接将训练 policy 和参考 policy 的 KL penalty 添加到 loss 中,避免了之前 KL penalty 计算的复杂性. KL 散度通过下面的无偏估计量来估计.
Outcome Supervision RL. 对于每个问题
Process Supervision RL. 设
Iterative RL. 下面的算法展示了 GRPO 与迭代式 RL 的合成.
Discussions
本文指出,代码训练从某种程度上加强了模型的数学推理能力. 本文还提出了下面的统一强化学习范式,并给出了一些实验结果.
本文还提出了一些有关强化学习的有趣见解. 例如,RL 提升了 Maj@K
但对 Pass@K
没有影响,暗示 RL 通过使输出分布更加稳健来提高模型的整体性能. 同时,从三个方面来看:
Data Source. 在强化学习中,我们从 policy model 中抽样得到无标签问题和它们的答案. 改进的方向包括基于树搜索的采样策略,高效推理技术等,从而提高策略模型的探索效率.
Algorithms. 标注数据有时不可信,如何开发对噪声奖励信号具有鲁棒性的 RL 算法,如何使用 WEAK-STRONG 的对齐方式.
Reward Function. 如何增强奖励模型的泛化能力从而解决 out-of-distribution 的问题,如何反映奖励模型的不确定性,如何高效地构建高质量的 PRM 从而提供细粒度的训练信号.
同时,本文以一种统一的视角分析了 SFT, RFT, Online RFT, DPO, PPO, GRPO 算法. 具体来说:
- Supervised Fine-tuning. 旨在最大化下面的目标.
数据源:用于 SFT 的数据集. 奖励函数:可以被视作人类选择. 梯度系数:恒为
- Rejection Sampling Fine-tuning. 首先从 SFT 的 LLM 中采样多个输出,然后在具有正确答案的输出上训练 LLM. 旨在最大化下面的目标.
数据源:SFT 数据集中的问题与 SFT 模型的输出. 奖励函数:rule-based. 梯度系数:
- Online Rejection Sampling Fine-tuning. 从实时策略模型
中采样,而不是 SFT 模型.
- Direct Preference Optimization (DPO). 旨在最大化下面的目标.
数据源:SFT 数据集中的问题与 SFT 模型的输出. 奖励函数:一般领域的人类偏好. 梯度系数:
- Proximal Policy Optimization (PPO). 旨在最大化下面的目标
假如在每个探索阶段后只有一次更新,那么
数据源:SFT 数据集中的问题与 policy model 的输出. 奖励函数:reward model. 梯度系数:
其中
- Group Relative Policy Optimization (GRPO). 假设
.
数据源:SFT 数据集中的问题与 policy model 的输出. 奖励函数:reward model. 梯度系数:
其中
本页面最近更新:,更新历史
发现错误?想一起完善? 在 GitHub 上编辑此页!
本页面贡献者:OI-wiki
本页面的全部内容在 协议之条款下提供,附加条款亦可能应用