此前有消息称 DeepSeek 或将提前推出原定于在五月份初发布的 R2 模型。消息是否属实还有待考量,不过在此之前,DeepSeek 刚刚新发布的一项关于推理时缩放的新研究,或许能让我们窥到 R2 的一角。
当前主流的 AI 模型大多采用了强化学习(Reinforcement Learning,RL),尤其是基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)作为后训练的核心方法。其核心在于训练一个奖励模型(Reward Model, RM)来模拟人类偏好,并指导 LLM 优化。但传统 RLHF 依赖大量人类标注,成本高昂且扩展性受限,尤其难以处理复杂和主观性强的任务。因此,构建更强大、更通用的奖励模型成为突破瓶颈的关键。
现有奖励模型范式,如标量评分(Scalar RM)或成对比较(Pairwise RM),在通用性和灵活性上存在局限。同时,随着推理时缩放(增加推理计算量)越发成为一个性能提升的重要途径,如果奖励模型能在推理时通过更多计算变得更准确,将直接提升 LLM 的对齐效果。
在此背景下,DeepSeek 联合清华大学的研究团队,提出了一种名为 DeepSeek-GRM 的通用奖励模型及其训练方法 SPCT(Self-Principled Critique Tuning,自我原则化批判调优),旨在解决通用奖励模型的构建难题,并系统探索利用推理时间缩放提升其性能的潜力。
相关论文以《通用奖励模型的推理时缩放》(Inference-Time Scaling for Generalist Reward Modeling)为题发表在预印本平台 arXiv 上。
图丨相关论文(来源:arXiv)
研究首先关注奖励模型的结构范式。团队认为,为了实现通用性和充分利用推理时间缩放的潜力,需要一种更灵活、表达能力更强的范式。他们最终选择了生成式奖励建模(Generative Reward Modeling, GRM),并具体采用了逐点式(Pointwise)的评分机制。
Pointwise GRM 的工作方式与传统 RM 不同。它不直接输出分数或排序,而是针对输入的查询和一组(一个或多个)待评价的回答,生成一段结构化的评价文本。
这段文本通常包含两个主要部分:首先,模型会根据当前的输入内容,自适应地生成一系列评价原则,这些原则定义了评价的关注点和标准,有时还会附带各个原则的相对重要性(权重);其次,模型会基于这些生成的原则,对每一个回答进行详细的分析和批判,说明其优缺点。最后,通过预设的解析规则,从生成的批判文本中提取出对每个回答的具体评分。
图丨奖励生成的不同范式(来源:arXiv)
这种 Pointwise GRM 范式展现出两大关键优势:一是输入灵活性。无论是评价单个回答,比较一对回答,还是需要对多个回答进行独立评分和排序,都可以使用统一的框架和模型进行处理,极大地拓宽了模型的应用范围。
二是推理时缩放潜力。由于模型的核心行为是生成文本,因此在推理时进行多次采样变得非常自然且有意义。每次采样可能产生不同的评价原则侧重和批判分析角度。通过综合这些多样化的评价结果,有望获得比单次生成更全面、更鲁棒、更精细的最终评分,为利用推理计算提升奖励质量提供了可能。
选择了合适的模型范式后,关键在于如何有效训练,使 GRM 具备强大的通用评价能力,并能真正从推理时间缩放中受益。为此,团队设计了提出了一种名为 SPCT 的学习框架。
SPCT 的核心思想在于,对于通用的评价任务,预先定义一套固定的、普适的评价标准(原则)是非常困难的。更有效的方式是让模型学会根据具体的输入(查询和回答)动态地、自适应地生成最相关的评价原则,并基于这些原则进行准确的批判。这意味着模型需要从被动应用规则,转变为主动构建评价框架。
研究团队通过初步实验验证了原则的重要性:直接使用模型生成的原则效果有限,但如果提供经过筛选的高质量原则,奖励模型的准确性会显著提高。这表明,能否生成“好的原则”是实现高质量奖励的关键。SPCT 的目标就是训练模型掌握这种生成高质量原则和准确批判的能力。
SPCT的训练过程包含两个阶段:
图丨SPCT 的示意图(来源:arXiv)
第一阶段是拒绝式微调(Rejective Fine-Tuning, RFT),作为模型的冷启动。此阶段使用预训练的 LLM 作为基础模型。研究人员利用包含查询、回答和人类偏好标签的奖励模型数据集,让模型尝试生成“原则+批判”文本并提取评分。
关键在于“拒绝式”采样策略:如果模型生成的评分结果与已知的人类偏好不符(例如,将较差的回答评为更优),则该次生成的训练数据被视为“不正确”而被拒绝;另一方面,如果对于某个输入,模型连续多次生成的评分结果都与人类偏好完全一致,这可能表明该任务过于简单,缺乏足够的学习信号,这类数据也会被视为“太容易”而被拒绝。
通过这种方式,模型得以专注于学习那些具有挑战性且能帮助其更好理解人类偏好的样本,从而快速掌握生成指定格式文本和初步区分回答优劣的能力。此阶段还结合了“提示式采样”(输入中包含最优答案信息)和“非提示式采样”,以平衡学习过程。
第二阶段是基于规则的在线强化学习(Rule-Based Online RL)。RFT 阶段提供了基础能力,但要让模型的原则生成和批判能力持续提升,适应更广泛场景,并为推理时间缩放做好准备,需要在线优化的介入。
在此阶段,GRM 模型作为 RL 中的策略,根据实时输入的查询和回答,生成原则、批判并提取评分。研究人员设计了一套简单的准确性规则作为奖励信号:如果模型给出的评分能够正确地将最优回答排在首位(与数据集标签一致),则获得正奖励(+1),否则获得负奖励(-1)。这个奖励信号用于更新 GRM 模型的参数。
这个在线过程持续激励模型去探索和学习如何生成那些能更可靠地区分回答质量的原则和批判逻辑。这种训练方式旨在内化模型的评价能力,使其在面对新情况时也能做出良好判断,这对于推理时间缩放的有效性至关重要。研究团队还发现,通过适当调整 KL 散度惩罚(一种防止模型在优化过程中偏离初始状态过远的正则化技术),可以有效保证生成文本格式的稳定性,并避免模型产生不必要的行为偏差。
经过 SPCT 训练的 DeepSeek-GRM 模型,具备了通过增加推理阶段计算量来提升性能的潜力。研究团队重点研究并实现了两种推理时间缩放策略:
第一种是基于投票的缩放(Voting with Generated Rewards)。这是一种相对直接的方法。对于给定的查询和一组待评价的回答,使用训练好的 DeepSeek-GRM 模型,设置一定的采样随机性(例如,temperature > 0),并行地进行 k 次独立的推理。每次推理都会生成一套可能不同的原则、批判和相应的评分。
最后,将这 k 次推理得到的评分进行聚合。对于 Pointwise 评分,通常的做法是将每个回答在 k 次采样中获得的分数相加或取平均,得到最终的综合评分,具体公式如下:
这种方法的好处在于,它不仅通过聚合多个评价视角来提高结果的鲁棒性,而且通过求和等方式,实际上增加了最终奖励值的范围和粒度(Granularity),使得模型能够更好地区分质量相近的回答。为了减少潜在的顺序影响,每次采样前还会对输入回答的顺序进行随机排列。
第二种是更进一步的元奖励模型引导的投票(Meta Reward Modeling Guided Voting)。简单投票假设每次采样的结果质量相当,但在实际中,部分采样可能由于随机性或模型局限而产生较低质量或有偏见的评价。
为了解决这个问题,研究团队提出训练一个元奖励模型(Meta Reward Model, Meta RM)。这个 Meta RM 的作用是评估 DeepSeek-GRM 生成的每一次“原则+批判”输出的质量或可靠性。Meta RM 本身通常也是一个简单的奖励模型(例如标量 RM),它通过学习判断 GRM 的输出是否与基准(如人类偏好)一致来进行训练。
在推理时,首先让 DeepSeek-GRM 生成 k 份评价结果,然后使用Meta RM对这 k 份结果进行评分,筛选出评分最高的 k_meta (k_meta ≤ k) 份结果,最后只基于这些被认为是高质量的评价结果进行投票聚合。这种方法通过引入一个“质量过滤器”,可以有效地剔除噪声采样,使得最终的聚合结果更加准确,从而更充分地发挥推理时间缩放的优势。
研究团队在多个主流的奖励模型评估基准(包括 Reward Bench, PPE, RMB, ReaLMistake)上,对 DeepSeek-GRM 模型(基于不同尺寸的基础模型)及其推理时间缩放策略进行了全面的实验评估,并与多种公开的和其他基线方法进行了对比。
实验结果清晰地展示了该研究方法的有效性:首先,即使在不进行推理时间缩放的基础设置下,经过 SPCT 训练的 DeepSeek-GRM 模型在整体性能上已优于同等规模的多种基线奖励模型,并展现出与一些大型闭源模型相竞争的实力。
其次,SPCT 训练方法的有效性也得到了证实,相比仅进行 RFT 冷启动,完整的 SPCT 流程带来了显著的性能提升,消融实验也证实了其关键组件(如原则生成、在线 RL)的贡献。
图丨不同方法和模型在 RM 基准上的整体结果(来源:arXiv)
再次,DeepSeek-GRM 展现了优秀的推理时间缩放特性,随着采样次数 k 的增加,模型性能持续稳定提高,尤其是在 Meta RM 的引导下,提升效果更为明显。
值得关注的是,实验数据表明,通过推理时间缩放(例如,在 27B 模型上进行 32 次采样并使用 Meta RM),其性能提升的幅度有时可以达到甚至超过通过数倍增加模型参数(训练时间缩放)所带来的提升,显示出推理时间缩放在提升奖励模型质量方面可能具有更高的计算效率。
最后,相比一些偏科严重的标量或半标量模型,DeepSeek-GRM 在不同类型任务和评价维度上的表现更为均衡,展现出更好的通用性和更少的领域偏见。
不过,虽然 SPCT 在提升 GRM 的性能和推理时间可扩展性方面取得了显著成功,但该方法目前也存在一些局限性。
首先,生成式奖励模型的效率本质上落后于同等规模的标量奖励模型,这限制了其在在线强化学习管道中的大规模使用。不过,由于他们采用并行采样进行推理时间扩展,使用合理数量(如 8 个)样本进行奖励生成的延迟不会显著增加。
其次,在特定领域(如可验证任务)上,DeepSeek-GRM 仍落后于标量模型。这可能是因为标量奖励模型捕获了推理查询和回答的隐藏特征,而 GRM 需要更强的推理能力来全面检查回答。不过,标量奖励模型存在严重的偏差和可扩展性问题。
研究团队指出,未来的研究方向包括:工具集成、原则和批评生成范式的分解、在 LLM 离线评估中的应用以及长视野推理的探索。他们相信,具有增强可扩展性和效率的 GRM 可以作为通用奖励系统的多功能接口,推动 LLM 后训练和推理的前沿发展。
参考资料:
1. https://arxiv.org/abs/2504.02495
排版:KIK