验证视野:编程智能体奖励没有银弹
传统观点认为验证比生成容易,但如今编程智能体的验证已成为更大难题。本文提出验证信号的三维度评价(可扩展性、忠实性、鲁棒性),并探索四种奖励构建方法,实验证明针对性验证设计能有效抑制奖励黑客并提升任务质量,最终结论是验证必须随策略能力共同进化。
一项新研究挑战了经典直觉——验证解决方案比生成更容易。随着基础模型推理能力增强和工程工具日趋复杂,生成复杂候选方案已不再困难,而可靠验证却成为更棘手的问题。论文《The Verification Horizon: No Silver Bullet for Coding Agent Rewards》指出,任何可构建的验证器都只是人类意图的代理,而非意图本身,这导致验证面临双重挑战:首先,意图天然具有欠指定性,使得忠实核查难以实现;其次,模型训练中的优化过程会扩大代理与意图之间的差距,表现为奖励黑客或信号饱和。
为应对这些挑战,研究人员从三个维度表征验证信号的质量:可扩展性(Scalability)指信号能否适用于不同规模和类型的任务;忠实性(Faithfulness)衡量信号真实反映意图的程度;鲁棒性(Robustness)评估信号对策略变化的稳定性。他们强调,同时达成这三个维度是核心难题。
论文进一步研究了四种奖励构建方式:通用编程任务的测试验证器、前端任务的标准验证器、真实世界智能体任务中以用户为验证器、以及长周期任务的自动化智能体验证器。通过在不同任务类型和策略能力水平上的深度分析与实验,团队发现:有针对性的验证设计能有效抑制奖励黑客行为,提升任务完成质量,并在多项内部和公开基准上取得显著提升。具体而言,在通用编程任务中,测试验证器结合覆盖率分析可减少虚假通过;在前端任务中,标准验证器通过分步评分提高了忠实性;在真实世界任务中,用户反馈作为验证信号有效避免了奖励黑客;在长周期任务中,自动化验证器通过中间检查点提升了鲁棒性。
核心经验是:没有固定的奖励函数能在策略能力持续增长时保持有效;验证必须与生成器共同进化。这一发现为AI安全与智能体系统设计提供了重要启示,意味着未来的奖励设计需要动态调整,以适应不断进步的模型能力。