Ecom-RLVE:面向電商對話智能體的自適應可驗證環境
Ecom-RLVE 將 RLVE 框架從單輪推理擴展到多輪工具增強的電商對話,提供 8 個可驗證環境(產品發現、替換、購物車構建、退貨、訂單追蹤、政策問答、套餐規劃、多意圖旅程),每個環境具備程序化問題生成、12 軸難度課程和可驗證獎勵。使用 DAPO 在 300 步內訓練 Qwen 3 8B 模型,初步結果表明環境縮放和自適應難度可遷移至實際任務完成。
文章情報
要點
- 8 個可驗證環境覆蓋真實電商場景,獎勵由程序而非人類或 LLM 評估。
- 自適應難度課程通過 12 個獨立維度動態調整挑戰,保持智能體處於學習前沿。
- 購物車構建環境深度展示了從搜索到變體選擇再到修正對話的完整流程。
- 初步訓練結果表明,環境縮放和多環境訓練可提升智能體的任務完成能力。
為甚麼重要
這條新聞值得關注,因為8 個可驗證環境覆蓋真實電商場景,獎勵由程序而非人類或 LLM 評估。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Ecom-RLVE 是 RLVE 框架在電商領域的擴展,其核心思想是將強化學習與可驗證獎勵結合,使智能體在真實電商任務中優化結果而非僅僅模仿對話流暢度。該框架提供了八個不同的訓練環境,每個環境都針對特定電商場景設計,包括產品發現、替代品推薦、購物車構建、退貨處理、訂單追蹤、政策問答、套餐規劃以及多意圖複雜對話。這些環境的關鍵在於獎勵信號完全由程序算法根據隱藏的真實目標計算,無需人工標註或 LLM 評判,從而避免了主觀性和獎勵欺騙問題。
自適應難度課程是該框架的一大亮點。每個任務難度由 12 個獨立維度控制,包括約束數量、用户遺漏約束的頻率、搜索結果中的干擾項比例、中途缺貨商品比例等。系統會跟蹤智能體在每個環境中的成功率,只有當智能體在當前難度等級可靠地完成任務時,才會提升難度。這種自適應調度確保智能體始終在其能力邊界處學習,避免因任務過易或過難而停滯。
以購物車構建環境為例,詳細展示了智能體需要掌握的五項技能:產品搜索、變體選擇、購物車管理、澄清對話和多商品訂單處理。智能體可使用六種工具(目錄搜索、獲取變體、添加購物車、查看購物車、獲取用户瀏覽歷史、詢問用户)。難度從簡單單商品無需變體,到需要處理帶噪音請求的多商品精確變體選擇,場景複雜度逐步增加。實驗顯示,在低難度下智能體可流暢完成,但高難度下會出現變體選擇錯誤、數量錯誤等錯誤級聯,這正是訓練需要解決的核心問題。
用户模擬方面,研究使用了 Qwen3.5 生成自然多樣的用户消息,並設計了偏好匹配和策略性遺漏機制:模擬用户的隱藏偏好與其聲明的約束一致,同時有意遺漏部分信息以迫使智能體主動澄清。環境還支持嵌套集合,從單一技能的 C1 到覆蓋所有技能的 C8,遵循 RLVE 的方法論,且假設多環境訓練效果更優。
初步實驗結果顯示了積極趨勢。研究使用 DAPO 算法訓練 Qwen 3 8B 模型 300 步,採用 200 萬產品目錄和 FAISS 索引。模型在自適應難度調度下逐步提升難度等級,產生了持續的學習信號,而非靜態難度下的飽和或飢餓模式。所有環境、驗證器和訓練配置均已開源,並提供了可在線運行的演示。