AI News HubLIVE
站内改写1 分钟阅读

大规模评估您的Amazon Nova Sonic语音代理,无需麦克风

本文介绍Nova Sonic测试框架,一个开源工具,可自动运行多轮对话、评估语音代理质量并检测音频幻觉。它支持快速迭代提示和工具配置,以及大规模回归测试。

来源AWS Machine Learning Blog作者: Osman Ipek

语音代理正在改变企业与客户的交互方式,通过自然语音对话处理预约、订单查询、账户管理等任务。然而,这些代理的测试面临独特挑战:它们双向流式传输音频、响应非确定性、维护多轮上下文并实时使用工具。传统方法依赖人工对话,缓慢且不可扩展。

AWS推出的Nova Sonic测试框架是一个开源解决方案,旨在解决两大关键问题:迭代系统提示和工具配置时速度慢,以及缺乏可靠的评估体系。该框架可自动运行完整的多轮对话,使用LLM-as-judge技术评估质量,甚至能检测模型音频输出与文本输出不匹配的“音频幻觉”。无需麦克风。

语音测试的独特挑战包括:双向流(全双工连接)、非确定性响应(每次回复不同)、多轮上下文(需跨回合推理)、音频-文本差异(可能说出不同内容)以及会话超时(约8分钟)。测试框架均能处理这些。

工作流程分为四步:定义测试场景(JSON配置)、运行对话(用户模拟器与Nova Sonic交互)、评估结果(LLM法官基于标准评分)、生成报告。用户定义目标和评估标准,而非预期输出。框架使用模型注册表映射别名,支持长会话的自动重连。

评估包含六个内置指标,分为三级:关键指标(目标达成、响应准确性)决定通过/失败;重要指标(工具使用、对话流畅性、系统提示合规)影响通过率;咨询指标(语音格式)仅供报告。每个指标通过多个YES/NO问题严格评估。

音频幻觉检测流程:将每轮音频上传至S3,用Amazon Transcribe转写,与文本输出比较,分类差异为填充词、措辞变体或事实错误。这对传递具体事实(如时间、价格)的代理至关重要。

框架支持大规模测试:可并行运行12个医疗场景、8个银行场景等,重复测试以测量变异性。批量运行后,仪表板显示通过率、指标细分、失败关联等。输出包含PASS/FAIL结果和数值通过率,适合CI/CD集成。附带了场景包,可直接使用。