2026-06-02 23:31 UTC+8站内改写5 分钟阅读更新: 2026-06-30 21:03 UTC+8

通过实时音频原生AI保护语音通道安全

本文探讨了联络中心语音交互中的实时风险，包括AI驱动的欺诈、深度伪造和代理人流失。通过三部分系列访谈，Modulate和Thales集团的专家提出：必须在通话中检测欺诈，使用专为音频设计的AI架构，并建立工作流层面的治理机制。

来源Emerj AI Research作者: Marilie Fouche

本文由Modulate赞助，遵循Emerj赞助内容指南编写和发布。

联络中心的实时语音交互已成为一个关键运营盲点，欺诈、身份风险和代理人流失在实时发生，而企业系统缺乏相应的可见性。

金融服务联络中心正面临双向资金流失，但大多数企业只衡量其中一面。FBI互联网犯罪投诉中心报告称，2025年AI驱动的欺诈（包括语音克隆和深度伪造冒充）造成已验证损失近8.93亿美元——这是FBI首次将其正式列为犯罪类别，且仅代表受害者实际报告的攻击的一小部分。

运营方面的后果也在加剧。人力资源管理学会发现，招聘和雇佣一名员工的平均成本近4,700美元，这还不包括培训、入职或生产力损失。在联络中心，人员流失率年均30%至45%（根据质量保证与培训连接基准），这一成本每年在每个座席上重复出现。一个500座席的中心以行业平均流失率运营，这不仅是人力资源问题，更是资本问题。

根本问题在于，联络中心在运行实时语音操作时，缺乏关于通话实际发生情况的实时情报——无论是合成语音绕过身份验证，还是 abusive 呼叫者推动受训代理人离职。两种损失都可衡量，也并非不可避免。

Emerj最近举办了关于保护语音通道实时风险的三部分系列访谈，嘉宾包括Modulate CEO兼联合创始人Mike Pappas、Modulate市场与行为研究总监Ken Morino以及Thales集团全球数据与AI CTO Jon-Rav Shende，探讨企业如何在通话中检测欺诈、部署支持高风险决策的语音智能架构，并建立经得起监管和保险审查的工作流治理。

本文探讨了三个关键见解，帮助企业保护语音通道这一欺诈和高风险决策的前线：

语音通道作为实时风险表面：在通话中检测欺诈和操纵，可防止财务损失、监管风险和代理人流失升级。

用于高风险决策的专用语音智能架构：为实时音频构建的模型提供通用AI无法支持的认证、账户变更和支付审批所需的准确性和速度。

工作流级治理与语音AI成果的共享所有权：清晰的升级路径和审计就绪证据使安全、运营和客户体验部门能够以监管和保险机构信任的方式对风险信号采取行动。

语音通道作为实时风险表面

剧集：为什么集成架构能战胜实时语音风险——与Modulate的Mike Pappas对话

嘉宾： Mike Pappas，Modulate CEO兼联合创始人

专长： AI、对话AI、AI安全与信任、系统架构

简要介绍： Mike Pappas共同创立了Modulate，领导了AI驱动对话分析技术的开发和部署，被财富500强公司和主要游戏工作室用于大规模解决骚扰、欺诈和用户安全问题。他此前在Lola和Bridgewater Associates担任技术和基础设施职务，涉及机器学习、云系统和软件架构。他还是家庭在线安全研究所董事会成员，拥有麻省理工学院物理学和应用数学学位。

Mike Pappas描述了组织需要理解语音通道的方式转变。曾经被视为常规服务交互的场所，如今成为欺诈、冒充和操纵实时发生的环境，其速度往往超过现有控制措施的检测能力。

在他看来，运营差距不在于检测能力，而在于时机——通话过程中发生的事情与系统事后能观察到的事情之间的差距。

Pappas直接解释了这一差距：

> “最大的伤害不会出现在日志中——它们发生在通话进行时。等到有人审查通话记录时，攻击者已经成功了。真正的风险是实时发生的事情与组织实际能看到的事情之间的差距。” > —— Mike Pappas，Modulate CEO兼联合创始人

欺诈尝试越来越依赖紧迫感、情感压力和冒充，这些在实时交互中显现。由于人类在政策之前对情感作出反应，这些信号在传统控制措施干预之前就影响了决策。

Pappas的立场是，检测必须在这些行为线索发生时进行——需要构建解释音频流本身而非转录本的模型。

代理人并未接受识别对抗性对话模式的培训，尤其是在这些模式被设计来绕过验证步骤时。Pappas认为，期望代理人自行识别这些信号是不现实的；解决方案是给他们提供实时可见的风险指标，使他们在高压时刻不依赖直觉。

在他的框架中，AI的角色是持续突出这些指标，即使在时间压力下或面对令人信服的冒充时。

在同一集中，Ken Morino指出，行为和情感线索在简化为文本时会消失，限制了基于转录的系统在检测操纵方面的有用性。表明某事不对劲的信号——犹豫、语调不匹配、对话引导——一旦交互被扁平化为文字就丢失了。

Morino认为，为实时音频构建的AI系统可以恢复这些信号，并以适合现有工作流的形式呈现，而无需代理人自行解释原始音频模式。

高风险工作流如身份验证、账户变更和支付审批之所以暴露，是因为必须快速做出决策，攻击者利用这种时间压力。

Jon-Rav Shende补充说，深度伪造欺诈通常通过利用工作流漏洞成功，而大多数安全团队对实际发生入侵的实时交互可见性有限。他强调使用AI突出与身份风险相关的通话内信号，使安全团队在交互仍在进行时而非事后获得可见性。

三个对话中的解决方案模式包括：

在通话中突出风险信号，为代理人提供实时上下文，而非依赖直觉或记忆。
使用音频原生模型，捕捉语调、犹豫和情感不匹配——这些信号在转录中无法保留。
暴露身份和审批过程中的工作流级漏洞，攻击者利用速度和模糊性。
当风险指标出现时，为代理人提供结构化提示或线索，从而减少高压交互中的认知负荷。
将安全可见性集成到实时交互中，使团队不会事后才发现入侵。

用于高风险决策的专用语音智能架构

剧集：为金融服务和客户体验实现实时语音智能运营——与Modulate的Ken Morino对话

嘉宾： Ken Morino，Modulate市场与行为研究总监

专长： 产品管理、行为研究、用户体验设计、企业软件与集成

简要介绍： Ken Morino在Modulate领导产品和市场研究计划，帮助塑造AI驱动对话技术和以用户为中心的产品策略。在加入Modulate之前，他在LiveShopper Sassie领导企业产品管理、API集成和大规模客户实施近十年，与主要企业客户和跨职能技术团队合作。更早前，他在Demarc Security担任产品、技术销售和安全解决方案领导职务。他拥有加州大学圣塔芭芭拉分校计算机科学学士学位和经济学硕士学位。

Ken Morino认为，大多数组织试图用从未为身份识别设计的系统来解决身份关键问题。

市场上的主流工具——ASR管道、转录分析和通用LLM——是为摘要、情感评分和合规审查而构建的。它们基于文本而非音频运行，并假设准确性要求是灵活的。在身份验证和账户变更工作流中，这些假设立即失效。

技术约束是不可协商的：

身份工作流有固定的延迟预算。响应需1.5秒的模型在必须在300毫秒内批准或拒绝行动的系统内不可用。
基于转录的系统丢弃了声学特征——音高、音色、微停顿、谐波结构——这些是身份系统依赖的。
通用LLM无法达到身份级准确性阈值。95%准确的模型在剩余5%是欺诈时是灾难性的。
单一模型方法失败，因为没有一个单独信号（声纹、措辞、元数据）足以可靠检测合成音频。
客户体验分析系统缺乏多信号融合，而这是将声学、行为和上下文指标结合成可防御身份决策所必需的。

Morino总结了核心限制：

> “一旦你将对话简化为文本，你就失去了犹豫、语调和情感不匹配——所有告诉你不对劲的东西。” > —— Ken Morino，Modulate市场与行为研究总监

Mike Pappas补充说，身份关键决策需要集成架构——多个专门模型处理音频信号的不同部分，并汇聚成单一风险评估。

Jon-Rav Shende指出，保险公司和监管机构越来越期望审计就绪证据，显示每个信号如何促成决策。他们共同认为，身份验证、账户变更和支付审批需要专用架构，而非重新利用的分析堆栈。

工作流级治理与语音AI成果的共享所有权

剧集：为什么深度伪造欺诈击败的是你的工作流，而非你的技术——与Thales集团的Jon-Rav Shende对话

嘉宾： Jon-Rav Shende，Thales集团全球数据与AI CTO

专长： AI安全、云与企业转型、网络安全与风险管理、数据治理与可信AI

简要介绍： Jon-Rav Shende在Thales、Sutherland和ForenSec Global担任高级技术和安全领导职务，专注于AI、网络安全和企业转型。他领导了全球企业的大规模云、安全和AI现代化项目，包括财富500强组织和数十亿美元的转型计划。他还曾在Ernst & Young和Cognizant等主要技术和咨询生态系统工作，以及AWS、Azure和Google等云平台。他积极参与InfraGard，并在AI治理、网络韧性和可信AI采用方面拥有广泛经验。

Jon-Rav Shende在对话中的贡献是，检测风险的技术能力只是问题的一半。另一半是组织性的：一旦系统能够突出身份相关信号，企业必须决定谁拥有响应权、如何捕获证据以及决策如何对监管机构、审计师和保险公司具有可防御性。

在他看来，失败模式不仅仅是技术能力的缺失，而是工作流导致的漏洞：攻击者利用审批流程中的速度和模糊性，在安全团队意识到之前就完成了攻击。

解决方案需要跨越安全、运营和客户体验部门的共享所有权，每个部门在整体响应中扮演明确角色。Shende强调使用AI实时突出风险信号，同时捕获审计轨迹，使企业事后能够证明每一步行动。

他总结道：“深度伪造欺诈不是利用你的AI弱点——它利用你的工作流弱点。如果你没有跨越部门的风险可见性和共享所有权，你就是在凭运气运行。”

通过这三个对话，企业可以采取以下步骤保护语音通道：

评估当前语音交互的可见性——是否在通话中或事后检测风险？
投资音频原生AI模型，能够捕获转录丢失的信号。
为身份关键决策实施集成架构，结合声学、行为和上下文信号。
跨安全、运营和客户体验部门建立工作流治理，确保明确升级路径和审计证据。
为代理人提供实时风险指标和结构化提示减少认知负荷。

随着AI驱动欺诈的持续增长，实时保护语音通道不再是可选，而是企业风险管理的核心要求。