DeepSeek 预告下一代 R2 模型,推出 SPCT 实现推理扩展新方法
DeepSeek AI 发布新论文,提出自原则批评调优(SPCT)方法,旨在增强通用奖励模型在推理阶段的扩展性。同时暗示下一代模型 R2 即将到来,引发业界关注。
DeepSeek AI,作为大语言模型领域的重要参与者,近日发表了一篇研究论文,详细介绍了一种旨在增强通用奖励模型(GRM)在推理阶段扩展性的新技术。同时,该公司暗示其下一代模型 R2 即将到来,引发了 AI 社区的广泛期待。
该论文题为《推理时间扩展泛化奖励建模》,提出了一种新颖方法,使 GRM 能够通过动态生成原则和批评来优化奖励生成,这是通过拒绝微调和基于规则的在线强化学习实现的。这一进展正值大语言模型扩展范式从预训练转向后训练(尤其是推理阶段)的时期,以 OpenAI 的 o1 等模型为代表。o1 在响应用户之前会生成长内部思维链,不断完善推理过程、探索不同策略并识别自身错误。DeepSeek 自家的 R1 系列模型进一步验证了纯强化学习训练(无需监督微调)在提升大语言模型推理能力方面的巨大潜力。
大语言模型基本的“下一个 token 预测”机制虽然提供了广泛知识,但往往缺乏深度规划和长期结果预测能力,容易导致短视决策。强化学习作为一个关键补充,为大语言模型提供了“内部世界模型”,使其能够模拟不同推理路径的潜在结果,评估路径质量并选择更优解决方案,从而实现更系统的长期规划。大语言模型与强化学习之间的协同作用日益被认为是增强复杂问题解决能力的关键。
清华大学交叉信息研究院助理教授吴翼在最近的一次播客中将大语言模型与强化学习的关系比作“乘法关系”。他指出,强化学习擅长决策,但本质上缺乏理解,理解能力的构建依赖于预训练模型,在此基础上强化学习才能进一步优化决策能力。这种“乘法关系”表明,只有在预训练阶段建立起强大的理解、记忆和逻辑推理基础时,强化学习才能充分释放其潜力,创建完整的智能体。
一篇题为《强化学习增强大语言模型:综述》的综合性调查论文概述了使用强化学习训练大语言模型的典型三步过程:首先训练奖励模型以近似人类偏好并评估不同输出;然后在每次微调迭代中,大语言模型生成多个响应,并用奖励模型评分;最后使用强化学习优化技术根据偏好分数更新模型权重。集成强化学习使大语言模型能够根据变化的偏好分数动态调整,超越单一预定答案的限制。
DeepSeek 的 SPCT:应对大语言模型强化学习扩展挑战
尽管强化学习在后训练中取得了成功,成为提升大语言模型性能的突破口,但强化学习算法本身仍有很大改进空间,其“规模定律”尚处于早期阶段。与传统规模定律关注增加数据和计算量以提升性能不同,强化学习的规模定律受更复杂因素影响,包括样本吞吐量、模型参数规模和训练环境的复杂性。强化学习扩展的一大障碍是奖励稀疏性。奖励模型是关键组件,生成准确的奖励信号至关重要。实现奖励模型的泛化和连续性是一个重点。
DeepSeek 和清华大学的研究人员在近期工作中解决了这一挑战,探索了推理时奖励模型的可扩展性和泛化性。他们提出的自原则批评调优(SPCT)方法旨在提高推理阶段通用奖励建模的可扩展性。SPCT 方法包括两个关键阶段:拒绝微调(作为冷启动,使 GRM 适应以正确格式和类型生成原则和批评)和基于规则的在线强化学习(进一步优化原则和批评的生成)。
为了实现有效的推理时间扩展,研究人员采用并行采样以最大化计算利用率。通过多次采样,DeepSeek-GRM 可以生成不同的原则和批评,并通过投票选择最终奖励。此外,还训练了一个元奖励模型来指导投票过程,进一步提升扩展性能。元奖励模型是一个点对点标量奖励模型,旨在识别 DeepSeek-GRM 生成的原则和批评的正确性。实验结果表明,SPCT 显著提高了 GRM 的质量和可扩展性,在多个综合 RM 基准测试上优于现有方法和模型,且无明显领域偏差。
展望未来:DeepSeek R2 即将到来
虽然研究论文侧重于奖励建模和推理时间扩展的进展,但对 DeepSeek R1 系列的提及和隐含的进展表明,该公司正在积极开发其下一代模型 R2。鉴于 DeepSeek 强调纯强化学习来增强推理能力,业界高度期待 R2 将融合并建立在最新可扩展奖励模型研究的见解之上。AI 社区将密切关注 DeepSeek R2 的进一步公告,期待看到该公司如何利用其在强化学习和推理优化方面的创新方法,推动大语言模型能力的前沿。对可扩展奖励模型的关注暗示其下一代旗舰模型可能更加注重复杂的自我评估和改进机制。
论文《推理时间扩展泛化奖励建模》可在 arXiv 上查阅。