2026-06-08站内改写1 分钟阅读更新: 2026-06-08

大规模评估您的Amazon Nova Sonic语音代理，无需麦克风

本文介绍Nova Sonic测试框架，一个开源工具，可自动运行多轮对话、评估语音代理质量并检测音频幻觉。它支持快速迭代提示和工具配置，以及大规模回归测试。

语音代理正在改变企业与客户的交互方式，通过自然语音对话处理预约、订单查询、账户管理等任务。然而，这些代理的测试面临独特挑战：它们双向流式传输音频、响应非确定性、维护多轮上下文并实时使用工具。传统方法依赖人工对话，缓慢且不可扩展。

AWS推出的Nova Sonic测试框架是一个开源解决方案，旨在解决两大关键问题：迭代系统提示和工具配置时速度慢，以及缺乏可靠的评估体系。该框架可自动运行完整的多轮对话，使用LLM-as-judge技术评估质量，甚至能检测模型音频输出与文本输出不匹配的“音频幻觉”。无需麦克风。

语音测试的独特挑战包括：双向流（全双工连接）、非确定性响应（每次回复不同）、多轮上下文（需跨回合推理）、音频-文本差异（可能说出不同内容）以及会话超时（约8分钟）。测试框架均能处理这些。

工作流程分为四步：定义测试场景（JSON配置）、运行对话（用户模拟器与Nova Sonic交互）、评估结果（LLM法官基于标准评分）、生成报告。用户定义目标和评估标准，而非预期输出。框架使用模型注册表映射别名，支持长会话的自动重连。

评估包含六个内置指标，分为三级：关键指标（目标达成、响应准确性）决定通过/失败；重要指标（工具使用、对话流畅性、系统提示合规）影响通过率；咨询指标（语音格式）仅供报告。每个指标通过多个YES/NO问题严格评估。

音频幻觉检测流程：将每轮音频上传至S3，用Amazon Transcribe转写，与文本输出比较，分类差异为填充词、措辞变体或事实错误。这对传递具体事实（如时间、价格）的代理至关重要。

框架支持大规模测试：可并行运行12个医疗场景、8个银行场景等，重复测试以测量变异性。批量运行后，仪表板显示通过率、指标细分、失败关联等。输出包含PASS/FAIL结果和数值通过率，适合CI/CD集成。附带了场景包，可直接使用。