2026-06-12站内改写1 分鐘閱讀更新: 2026-06-12

購物推理基準：專家編寫的多輪對話購物助手基準

購物推理基準（Shopping Reasoning Bench）是一個由零售領域專家創建的新基準，包含525個任務（232個單輪、293個多輪）和10863條重要性加權的二元評分標準，旨在評估對話式購物助手在偏好細化、權衡分析和兼容性評估等多輪推理能力。測試結果表明，GPT、Claude和Gemini等頂級模型的整體通過率僅為57-77%，且在多輪任務中表現顯著下降，表明當前模型在提供專家級建議方面仍有較大差距。

來源arXiv Computational Linguistics作者: Shuxian Fan, Seonwoo Min, Youna Hu, Botao Xia, Jayakrishnan Unnikrishnan, Rowan Musselmann, Yifan Gao, Qingyu Yin, Priyanka Nigam, Bing Yin

對話式購物助手如今服務於數億用户，然而現有基準未能全面評估真實購物對話中所必需的多輪推理、領域專業知識和標準級質量。購物推理在語言模型應用中獨具特色，與事實問答或可驗證代碼生成不同，它需要跨多輪對話平衡主觀偏好、預算限制及產品間權衡——這些能力在以往的電商和通用基準中缺失。為此，研究團隊推出了購物推理基準（Shopping Reasoning Bench），這是一個由零售領域專家精心編寫的基準，包含525個任務（其中232個為單輪任務，293個為多輪任務）和10863條按重要性加權的二元評分標準。這些標準被組織在一個包含五個推理類別和十五個子類別的分類體系下，涵蓋了偏好細化、權衡分析和兼容性評估等多樣化的需求。

為了驗證當前模型的性能，研究人員對來自三個主流系列（GPT、Claude、Gemini）的九個模型進行了全面評估。結果顯示，整體通過率僅為57-77%——這一數字遠低於專家水平的期望。更值得注意的是，在多輪任務中，所有模型在可選的高標準標準上的得分比必需標準低13-29個百分點，且隨着對話輪次的增加，性能下降4-18個百分點。這些數據清晰地表明，雖然當前模型能夠處理基礎的購物輔助任務，但在提供專家級建議方面仍存在顯著差距。購物推理基準的推出，為未來購物助手的發展提供了一個具有挑戰性的測試平台，有望推動該領域的技術進步。