Anchor:缓解智能体基准生成中的工件漂移
AI智能体正开始完成有价值的长期业务运营任务,但企业工作的训练和评估环境在真实性、可验证性和规模之间难以平衡。环境与任务创建经常遭受一种称为“工件漂移”的失败模式:当指令、环境、预测器和验证器由松散耦合的过程创建时,它们经常对任务要求产生分歧,导致环境不可解、可奖励篡改或不一致。本文提出Anchor,一种将领域专家的业务流程规范形式化为约束优化程序的任务生成管道。通过单个参数化规范,管道联合生成自然语言指令、环境配置、求解器认证的真实解决方案和基于状态的验证器。通过改变参数,可产生具有可控难度和已知最优解的新任务,生成仅依赖最终状态业务正确性的与框架无关的环境。作者应用Anchor创建了ERP-Bench,一个包含300个长期任务的基准测试,涵盖生产级ERP系统中的采购和制造工作流。实验发现前沿模型在26.1%的试验中满足显式任务约束,但仅17.4%达到完全最优解。总体而言,Anchor和ERP-Bench为构建可审计的评估环境提供了具体方案,用于评估具有经济价值的智能体工作。
文章情报
要点
- 提出“工件漂移”概念,指任务创建过程中指令、环境、预测器和验证器不一致导致的基准问题。
- Anchor管道通过约束优化程序从单一参数化规范联合生成指令、环境、解和验证器。
- 基于Anchor构建的ERP-Bench基准包含300个长期任务,覆盖ERP系统的采购和制造流程。
- 前沿模型仅17.4%达到完全最优解,表明现有AI在处理复杂业务任务时仍有显著提升空间。
为什么重要
这条新闻值得关注,因为提出“工件漂移”概念,指任务创建过程中指令、环境、预测器和验证器不一致导致的基准问题。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
AI智能体(AI Agent)正逐渐展现出完成具有经济价值的长期业务操作任务的能力,从采购订单处理到制造流程优化,这些任务通常需要多个步骤的推理和执行。然而,为这类企业级工作设计训练和评估环境仍然面临巨大挑战:如何在真实性、可验证性和可扩展性之间取得平衡?一个常见且被忽视的失败模式是“工件漂移”(artifact drift)。工件漂移发生在任务创建过程中,当指令、环境、预测器(oracle)和验证器由松散耦合的流程分别生成时,它们对任务要求往往不一致,导致基准测试出现不可解、可被奖励黑客利用或自相矛盾的问题。这种不一致性严重损害了基准测试的可靠性和有效性。
为了应对这一挑战,来自学术界和工业界的研究人员提出了Anchor系统。Anchor是一个系统化的任务生成管道,其核心思想是将领域专家对业务流程的规范形式化为约束优化程序。通过一个参数化的规范,该管道能够同时生成四个关键组件:自然语言指令、环境配置、由求解器保证正确性的标准答案(ground-truth solution)以及基于状态的验证器。这意味着,只需调整参数,就能创建出难度可控、最优解已知的新任务。更重要的是,所生成的环境与具体的评估框架无关,奖励信号完全基于最终状态的业务正确性,从而避免了奖励黑客和任务不一致的问题。
为了验证Anchor的有效性,研究团队将其应用于企业资源规划(ERP)领域,构建了名为ERP-Bench的基准测试集。ERP-Bench包含300个长期任务,覆盖采购和制造工作流,运行在一个生产级的ERP系统之上。实验结果表明,生成参数能够预测任务的实际难度。在对前沿AI模型(如大型语言模型)的测试中,模型在26.1%的试验中满足了显式的任务约束,但只有17.4%的试验找到了完全最优的解决方案。这一结果揭示了当前模型在处理复杂、多步骤业务逻辑时的显著局限性。
总之,Anchor和ERP-Bench提供了一种具体的方法来构建可审计的评估环境,用于衡量AI智能体在经济价值工作上的表现。该方案不仅保证了基准的一致性和可靠性,还为后续研究提供了可扩展的框架。作者已公开了任务生成器和ERP-Bench数据集,以期推动该领域的进一步发展。此研究已被RLEval '26(ACM AI与智能体系统会议研讨会)接收。