EVA-Bench Data 2.0:3個領域、121個工具、213個場景
EVA-Bench Data 2.0 將企業語音代理基準測試從單一領域擴充套件到三個領域:航空客戶服務管理、企業IT服務管理和醫療人力資源服務交付。新版本包含213個評估場景和121個工具,覆蓋範圍增加了約4倍。資料集透過SyGra管道生成,並經過手動驗證和前沿模型測試,確保質量和公平性。即將推出多語言支援。
ServiceNow AI 團隊釋出了 EVA-Bench Data 2.0,這是一個用於評估語音代理的基準資料集,現涵蓋三個企業領域:航空客戶服務管理(CSM)、企業IT服務管理(ITSM)和醫療人力資源服務交付(HRSD)。新版本包含213個評估場景,跨越121個工具,相比原始版本,場景覆蓋率增加了約4倍。每個場景都針對三個前沿模型(OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6)進行了可解性驗證,確保基準測試既具有挑戰性又公平。
資料集的設計基於五項原則:語音優先範圍、真實性、多樣性、身份驗證和可重複性。團隊首先識別每個領域中實際透過電話處理的任務,然後選擇最常見的流程,確保場景基於真實的通話模式。工具模式模擬了生產平臺使用的API,場景策略來自真實的企業約束。例如,在醫療HRSD領域,場景基於美國實際醫療政策和行政系統,包括NPI號碼、FMLA和保險覆蓋。
場景生成使用基於圖的合成資料管道SyGra,以GPT-5.4為骨幹。每個場景需要三個共同一致的元件:使用者目標、初始場景資料庫和預期最終資料庫狀態。使用者目標被結構化為決策樹,覆蓋模擬器可能遇到的每種情況,確保可重複性。初始資料庫與使用者目標聯合生成,確保所有引用的實體一致。預期最終狀態透過執行LLM生成完整動作軌跡得到。聯合生成後,經過結構檢查、LLM一致性驗證和軌跡驗證的多階段驗證迴圈。
SyGra生成後,所有場景經過多輪人工審查。審查員驗證策略一致性、使用者目標的特異性、預期最終狀態的一致性以及對抗性場景的正確性。作為最終步驟,在三個前沿模型上執行文本版本場景,對任何得分為零的場景進行人工調查,以排除資料集問題。
新的資料集針對不同的難度軸:航空CSM側重於結構化命名實體的準確轉錄,ITSM要求對技術術語和優先順序分類有深入理解,醫療HRSD則引入了複雜的政策約束和有限的使用者請求自主權。團隊還在擴充套件多語言支援,不僅翻譯對話語言,還調整了評估管道以適應目標語言和文化,包括本地化的姓名、地址和電話號碼。
EVA-Bench 完全開源,採用 MIT 許可證。資料集、評估框架和排行榜公開可用。使用者可以透過 Hugging Face 資料集庫直接載入資料集。團隊表示,多語言擴充套件將幫助實踐者更全面地評估語音代理在不同語言環境中的表現。