2026-07-03 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-03 15:58 UTC+8

超越下一个词预测：基于RLVR的Atlassian工作流工具使用智能体概念验证

本研究探索使用可验证奖励的强化学习（RLVR）在特定企业SaaS工作流中训练小语言模型，以解决传统下一个词预测的局限性。在模拟Jira和Confluence API的五种合成环境中，RL训练的模型在四个非退化场景中平均奖励从0.35-0.92提升至0.95-1.00，尤其是在Confluence页面创建任务中从0.35提升至1.00。但手动设计可验证奖励难以扩展，且存在奖励饱和问题。

来源arXiv AI作者: Karthikeya Aditya Vissa, Sankalp Mane, Ananya Mantravadi, Harshit Rajgarhia, Abhishek Mukherji

大型语言模型（LLM）通常通过预测下一个词进行训练，但在需要精确调用API的企业级SaaS工作流中表现不佳。例如，在Jira或Confluence等平台上，成功操作要求按正确顺序调用端点并传递正确的嵌套参数。传统的下一个词预测模型常出现沉默失败——遗漏必需字段、虚构工具或过早停止。

针对这一目标不匹配问题，来自研究团队的一篇新论文提出使用可验证奖励的强化学习（RLVR）直接针对目标环境进行优化。作为概念验证，他们构建了五个模拟Jira REST v3和Confluence v2 API的合成环境，奖励完全基于工具调用轨迹计算，无需实时API、学习型评判者或人工标注。

实验使用Qwen3-1.7B和Qwen3.5-4B模型，在相同的检查器驱动GRPO训练。结果显示，在四个非退化奖励场景中，RL训练的策略将平均奖励从4B基线范围的0.35-0.92提升至0.95-1.00，其中最大增长出现在Confluence页面创建任务（从0.35跃升到1.00）。这充分表明RLVR在小模型上能够有效纠正工具使用中的错误，使得模型在特定API调用任务上达到近乎完美的表现。

然而，论文也指出了两个关键局限。首先，手动设计可验证奖励难以扩展到更多端点，因为每个新端点都需要定制化奖励函数，这在实际部署中可能成为瓶颈。其次，在五个场景之一（工单转换）中，奖励函数已经饱和，即使没有RL训练，基础模型也已达到最高分，这意味着RLVR在该场景中并未带来额外收益。这些发现表明，虽然RLVR在小规模专用场景中前景广阔，但走向实际部署仍需解决可扩展性和奖励设计问题。论文作者将其定位为面向小众企业API的结果优化小模型的初步步骤，并提醒读者需权衡这些局限性。