超越下一个词预测:基于RLVR的Atlassian工作流工具使用智能体概念验证
本研究探索使用可验证奖励的强化学习(RLVR)在特定企业SaaS工作流中训练小语言模型,以解决传统下一个词预测的局限性。在模拟Jira和Confluence API的五种合成环境中,RL训练的模型在四个非退化场景中平均奖励从0.35-0.92提升至0.95-1.00,尤其是在Confluence页面创建任务中从0.35提升至1.00。但手动设计可验证奖励难以扩展,且存在奖励饱和问题。
大型语言模型(LLM)通常通过预测下一个词进行训练,但在需要精确调用API的企业级SaaS工作流中表现不佳。例如,在Jira或Confluence等平台上,成功操作要求按正确顺序调用端点并传递正确的嵌套参数。传统的下一个词预测模型常出现沉默失败——遗漏必需字段、虚构工具或过早停止。
针对这一目标不匹配问题,来自研究团队的一篇新论文提出使用可验证奖励的强化学习(RLVR)直接针对目标环境进行优化。作为概念验证,他们构建了五个模拟Jira REST v3和Confluence v2 API的合成环境,奖励完全基于工具调用轨迹计算,无需实时API、学习型评判者或人工标注。
实验使用Qwen3-1.7B和Qwen3.5-4B模型,在相同的检查器驱动GRPO训练。结果显示,在四个非退化奖励场景中,RL训练的策略将平均奖励从4B基线范围的0.35-0.92提升至0.95-1.00,其中最大增长出现在Confluence页面创建任务(从0.35跃升到1.00)。这充分表明RLVR在小模型上能够有效纠正工具使用中的错误,使得模型在特定API调用任务上达到近乎完美的表现。
然而,论文也指出了两个关键局限。首先,手动设计可验证奖励难以扩展到更多端点,因为每个新端点都需要定制化奖励函数,这在实际部署中可能成为瓶颈。其次,在五个场景之一(工单转换)中,奖励函数已经饱和,即使没有RL训练,基础模型也已达到最高分,这意味着RLVR在该场景中并未带来额外收益。这些发现表明,虽然RLVR在小规模专用场景中前景广阔,但走向实际部署仍需解决可扩展性和奖励设计问题。论文作者将其定位为面向小众企业API的结果优化小模型的初步步骤,并提醒读者需权衡这些局限性。