购物推理基准:专家编写的多轮对话购物助手基准
购物推理基准(Shopping Reasoning Bench)是一个由零售领域专家创建的新基准,包含525个任务(232个单轮、293个多轮)和10863条重要性加权的二元评分标准,旨在评估对话式购物助手在偏好细化、权衡分析和兼容性评估等多轮推理能力。测试结果表明,GPT、Claude和Gemini等顶级模型的整体通过率仅为57-77%,且在多轮任务中表现显著下降,表明当前模型在提供专家级建议方面仍有较大差距。
对话式购物助手如今服务于数亿用户,然而现有基准未能全面评估真实购物对话中所必需的多轮推理、领域专业知识和标准级质量。购物推理在语言模型应用中独具特色,与事实问答或可验证代码生成不同,它需要跨多轮对话平衡主观偏好、预算限制及产品间权衡——这些能力在以往的电商和通用基准中缺失。为此,研究团队推出了购物推理基准(Shopping Reasoning Bench),这是一个由零售领域专家精心编写的基准,包含525个任务(其中232个为单轮任务,293个为多轮任务)和10863条按重要性加权的二元评分标准。这些标准被组织在一个包含五个推理类别和十五个子类别的分类体系下,涵盖了偏好细化、权衡分析和兼容性评估等多样化的需求。
为了验证当前模型的性能,研究人员对来自三个主流系列(GPT、Claude、Gemini)的九个模型进行了全面评估。结果显示,整体通过率仅为57-77%——这一数字远低于专家水平的期望。更值得注意的是,在多轮任务中,所有模型在可选的高标准标准上的得分比必需标准低13-29个百分点,且随着对话轮次的增加,性能下降4-18个百分点。这些数据清晰地表明,虽然当前模型能够处理基础的购物辅助任务,但在提供专家级建议方面仍存在显著差距。购物推理基准的推出,为未来购物助手的发展提供了一个具有挑战性的测试平台,有望推动该领域的技术进步。