2026-06-04 20:24 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

EVA-Bench Data 2.0：3个领域、121个工具、213个场景

EVA-Bench Data 2.0 将企业语音代理基准测试从单一领域扩展到三个领域：航空客户服务管理、企业IT服务管理和医疗人力资源服务交付。新版本包含213个评估场景和121个工具，覆盖范围增加了约4倍。数据集通过SyGra管道生成，并经过手动验证和前沿模型测试，确保质量和公平性。即将推出多语言支持。

来源Hugging Face Blog

ServiceNow AI 团队发布了 EVA-Bench Data 2.0，这是一个用于评估语音代理的基准数据集，现涵盖三个企业领域：航空客户服务管理（CSM）、企业IT服务管理（ITSM）和医疗人力资源服务交付（HRSD）。新版本包含213个评估场景，跨越121个工具，相比原始版本，场景覆盖率增加了约4倍。每个场景都针对三个前沿模型（OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6）进行了可解性验证，确保基准测试既具有挑战性又公平。

数据集的设计基于五项原则：语音优先范围、真实性、多样性、身份验证和可重复性。团队首先识别每个领域中实际通过电话处理的任务，然后选择最常见的流程，确保场景基于真实的通话模式。工具模式模拟了生产平台使用的API，场景策略来自真实的企业约束。例如，在医疗HRSD领域，场景基于美国实际医疗政策和行政系统，包括NPI号码、FMLA和保险覆盖。

场景生成使用基于图的合成数据管道SyGra，以GPT-5.4为骨干。每个场景需要三个共同一致的组件：用户目标、初始场景数据库和预期最终数据库状态。用户目标被结构化为决策树，覆盖模拟器可能遇到的每种情况，确保可重复性。初始数据库与用户目标联合生成，确保所有引用的实体一致。预期最终状态通过运行LLM生成完整动作轨迹得到。联合生成后，经过结构检查、LLM一致性验证和轨迹验证的多阶段验证循环。

SyGra生成后，所有场景经过多轮人工审查。审查员验证策略一致性、用户目标的特异性、预期最终状态的一致性以及对抗性场景的正确性。作为最终步骤，在三个前沿模型上运行文本版本场景，对任何得分为零的场景进行人工调查，以排除数据集问题。

新的数据集针对不同的难度轴：航空CSM侧重于结构化命名实体的准确转录，ITSM要求对技术术语和优先级分类有深入理解，医疗HRSD则引入了复杂的政策约束和有限的用户请求自主权。团队还在扩展多语言支持，不仅翻译对话语言，还调整了评估管道以适应目标语言和文化，包括本地化的姓名、地址和电话号码。

EVA-Bench 完全开源，采用 MIT 许可证。数据集、评估框架和排行榜公开可用。用户可以通过 Hugging Face 数据集库直接加载数据集。团队表示，多语言扩展将帮助实践者更全面地评估语音代理在不同语言环境中的表现。