Ecom-RLVE:面向电商对话智能体的自适应可验证环境
Ecom-RLVE 将 RLVE 框架从单轮推理扩展到多轮工具增强的电商对话,提供 8 个可验证环境(产品发现、替换、购物车构建、退货、订单追踪、政策问答、套餐规划、多意图旅程),每个环境具备程序化问题生成、12 轴难度课程和可验证奖励。使用 DAPO 在 300 步内训练 Qwen 3 8B 模型,初步结果表明环境缩放和自适应难度可迁移至实际任务完成。
文章情报
要点
- 8 个可验证环境覆盖真实电商场景,奖励由程序而非人类或 LLM 评估。
- 自适应难度课程通过 12 个独立维度动态调整挑战,保持智能体处于学习前沿。
- 购物车构建环境深度展示了从搜索到变体选择再到修正对话的完整流程。
- 初步训练结果表明,环境缩放和多环境训练可提升智能体的任务完成能力。
为什么重要
这条新闻值得关注,因为8 个可验证环境覆盖真实电商场景,奖励由程序而非人类或 LLM 评估。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
Ecom-RLVE 是 RLVE 框架在电商领域的扩展,其核心思想是将强化学习与可验证奖励结合,使智能体在真实电商任务中优化结果而非仅仅模仿对话流畅度。该框架提供了八个不同的训练环境,每个环境都针对特定电商场景设计,包括产品发现、替代品推荐、购物车构建、退货处理、订单追踪、政策问答、套餐规划以及多意图复杂对话。这些环境的关键在于奖励信号完全由程序算法根据隐藏的真实目标计算,无需人工标注或 LLM 评判,从而避免了主观性和奖励欺骗问题。
自适应难度课程是该框架的一大亮点。每个任务难度由 12 个独立维度控制,包括约束数量、用户遗漏约束的频率、搜索结果中的干扰项比例、中途缺货商品比例等。系统会跟踪智能体在每个环境中的成功率,只有当智能体在当前难度等级可靠地完成任务时,才会提升难度。这种自适应调度确保智能体始终在其能力边界处学习,避免因任务过易或过难而停滞。
以购物车构建环境为例,详细展示了智能体需要掌握的五项技能:产品搜索、变体选择、购物车管理、澄清对话和多商品订单处理。智能体可使用六种工具(目录搜索、获取变体、添加购物车、查看购物车、获取用户浏览历史、询问用户)。难度从简单单商品无需变体,到需要处理带噪音请求的多商品精确变体选择,场景复杂度逐步增加。实验显示,在低难度下智能体可流畅完成,但高难度下会出现变体选择错误、数量错误等错误级联,这正是训练需要解决的核心问题。
用户模拟方面,研究使用了 Qwen3.5 生成自然多样的用户消息,并设计了偏好匹配和策略性遗漏机制:模拟用户的隐藏偏好与其声明的约束一致,同时有意遗漏部分信息以迫使智能体主动澄清。环境还支持嵌套集合,从单一技能的 C1 到覆盖所有技能的 C8,遵循 RLVE 的方法论,且假设多环境训练效果更优。
初步实验结果显示了积极趋势。研究使用 DAPO 算法训练 Qwen 3 8B 模型 300 步,采用 200 万产品目录和 FAISS 索引。模型在自适应难度调度下逐步提升难度等级,产生了持续的学习信号,而非静态难度下的饱和或饥饿模式。所有环境、验证器和训练配置均已开源,并提供了可在线运行的演示。