AI News HubLIVE
站内改写2 分钟阅读

Loka 如何利用 Amazon Nova 2 Sonic 构建自然、低延迟的语音代理

Loka 使用 Amazon Nova 2 Sonic 构建了对话式 AI 代理,通过原生语音到语音模型解决了传统语音助手延迟高、不自然的问题,实现了低成本、高准确率的客户互动。

来源AWS Machine Learning Blog作者: Bojan Jakimovski

Loka 近日展示了如何利用 Amazon Nova 2 Sonic 构建一个自然、低延迟的语音代理,彻底改变了客户语音交互体验。传统语音助手常因延迟和机械感导致客户挂断,损害品牌声誉并增加支持成本。Loka 的 AWS 解决方案通过原生语音到语音模型,在 Big Bench Audio 基准测试中实现了高达 87.0 的语音推理准确率,同时显著降低了成本和响应时间。

传统语音助手的问题根源在于其三步处理流程:首先将语音转换为文本(语音转文本),然后通过大语言模型(LLM)处理文本,最后将文本响应转换回语音(文本转语音)。每一步都会引入延迟,导致用户在听到响应前等待 3 到 5 秒,破坏了自然的对话节奏。例如,在汽车经销商的真实场景中,客户呼叫询问“那款广告中的 SUV,但不要混合动力版本,我只能在下午 5 点后到店”,助手需要同时解析多个信息单元,理解意图、否定和日程约束。传统系统在转换过程中丢失了语调、犹豫和紧迫感等微妙线索,导致误解和重复延迟。经济性方面,大规模部署传统实时语音系统成本高昂,尤其在处理连续音频流时,阻碍了语音 AI 的普及。

针对这一瓶颈,最新进展允许开发者直接向语音到语音模型发送音频流,实现理解、推理和生成的统一处理。Amazon Nova 2 Sonic 正是此类模型,它端到端处理音频,捕捉语调、情感等细微信息。在 Big Bench Audio 测试中,Nova 2 Sonic 的语音推理得分达 87.0,超越 Gemini 2.5 Flash Native Audio(71.0)和 GPT Realtime(83.0),证明原生音频处理未牺牲智能性。延迟方面,首次音频时间(TTFA)为 1.39 秒,支持自然的“打断”行为。成本方面,每小时输入音频约 0.27 美元,低于同类实时模型。

为了衡量质量,Loka 构建了自动化评估管道,使用 LLM 作为评判员,从五个维度(响应适当性、意图理解、完整性、对话自然性、错误恢复)进行 1-5 分评分。与基线 Nova Sonic 相比,Nova 2 Sonic 的响应适当性从 2.5 提升至 2.9,意图理解从 2.9 升至 3.0,完整性从 1.8 跃升至 2.5,对话自然性从 2.5 升至 2.8,总体评分从 2.4 增至 2.7。

工程优化是关键。Loka 将提示视为代码,通过迭代提升性能。初始基线评分为 2.7,第一次提示优化后升至 3.1,第二次迭代达到 3.8。优化包括:将硬编码的经销商详情替换为模板变量(如 {assistant_name}),使提示可复用;格式从编号列表改为带标题的要点,减少主题间指令混淆;添加具体行为示例和预响应检查清单。Amazon Bedrock 提示管理提供了版本控制、IAM 安全控制和运行时变量注入,将提示工程转化为可重复、可审计的工作流。

在实际测试中,Loka 模拟了愤怒客户、忙碌家长、健谈客户、困惑客户和老年客户等场景。忙碌家长场景在五个维度均获 5.0 分,愤怒客户和困惑客户场景总体评分为 4.5。但健谈客户和老年客户场景评分较低(均为 3.0),表明在处理冗长、杂乱输入时仍有改进空间,平均边缘案例评分为 4.0,显示强大的现实就绪性。

生产架构采用 LiveKit 作为传输层,AWS Fargate 提供计算层,Amazon ECS 容器化 LiveKit Agents,实现独立扩缩。Amazon RDS 用于持久存储,Amazon ElastiCache 处理会话协调,Amazon Bedrock 提供模型访问。Web 客户端通过 WebRTC 连接,电话通过 SIP 中继经网络负载均衡器路由。可观测性由自托管于 AWS 上的 Langfuse 提供,追踪每个代理决策和工具调用。

这一成果标志着从文本聊天机器人向实时语音代理的转变,不仅改变了界面,更要求全新的基础设施和思维。Nova 2 Sonic 同时满足高推理能力、低延迟和经济性三大工程要求,为对话式 AI 树立了新标准。