2026-06-02 23:31 UTC+8站內改寫5 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

通過實時音頻原生AI保護語音通道安全

本文探討了聯絡中心語音交互中的實時風險，包括AI驅動的欺詐、深度偽造和代理人流失。通過三部分系列訪談，Modulate和Thales集團的專家提出：必須在通話中檢測欺詐，使用專為音頻設計的AI架構，並建立工作流層面的治理機制。

來源Emerj AI Research作者: Marilie Fouche

本文由Modulate贊助，遵循Emerj贊助內容指南編寫和發佈。

聯絡中心的實時語音交互已成為一個關鍵運營盲點，欺詐、身份風險和代理人流失在實時發生，而企業系統缺乏相應的可見性。

金融服務聯絡中心正面臨雙向資金流失，但大多數企業只衡量其中一面。FBI互聯網犯罪投訴中心報告稱，2025年AI驅動的欺詐（包括語音克隆和深度偽造冒充）造成已驗證損失近8.93億美元——這是FBI首次將其正式列為犯罪類別，且僅代表受害者實際報告的攻擊的一小部分。

運營方面的後果也在加劇。人力資源管理學會發現，招聘和僱傭一名員工的平均成本近4,700美元，這還不包括培訓、入職或生產力損失。在聯絡中心，人員流失率年均30%至45%（根據質量保證與培訓連接基準），這一成本每年在每個座席上重複出現。一個500座席的中心以行業平均流失率運營，這不僅是人力資源問題，更是資本問題。

根本問題在於，聯絡中心在運行實時語音操作時，缺乏關於通話實際發生情況的實時情報——無論是合成語音繞過身份驗證，還是 abusive 呼叫者推動受訓代理人離職。兩種損失都可衡量，也並非不可避免。

Emerj最近舉辦了關於保護語音通道實時風險的三部分系列訪談，嘉賓包括Modulate CEO兼聯合創始人Mike Pappas、Modulate市場與行為研究總監Ken Morino以及Thales集團全球數據與AI CTO Jon-Rav Shende，探討企業如何在通話中檢測欺詐、部署支持高風險決策的語音智能架構，並建立經得起監管和保險審查的工作流治理。

本文探討了三個關鍵見解，幫助企業保護語音通道這一欺詐和高風險決策的前線：

語音通道作為實時風險表面：在通話中檢測欺詐和操縱，可防止財務損失、監管風險和代理人流失升級。

用於高風險決策的專用語音智能架構：為實時音頻構建的模型提供通用AI無法支持的認證、賬户變更和支付審批所需的準確性和速度。

工作流級治理與語音AI成果的共享所有權：清晰的升級路徑和審計就緒證據使安全、運營和客户體驗部門能夠以監管和保險機構信任的方式對風險信號採取行動。

語音通道作為實時風險表面

劇集：為什麼集成架構能戰勝實時語音風險——與Modulate的Mike Pappas對話

嘉賓： Mike Pappas，Modulate CEO兼聯合創始人

專長： AI、對話AI、AI安全與信任、系統架構

簡要介紹： Mike Pappas共同創立了Modulate，領導了AI驅動對話分析技術的開發和部署，被財富500強公司和主要遊戲工作室用於大規模解決騷擾、欺詐和用户安全問題。他此前在Lola和Bridgewater Associates擔任技術和基礎設施職務，涉及機器學習、雲系統和軟件架構。他還是家庭在線安全研究所董事會成員，擁有麻省理工學院物理學和應用數學學位。

Mike Pappas描述了組織需要理解語音通道的方式轉變。曾經被視為常規服務交互的場所，如今成為欺詐、冒充和操縱實時發生的環境，其速度往往超過現有控制措施的檢測能力。

在他看來，運營差距不在於檢測能力，而在於時機——通話過程中發生的事情與系統事後能觀察到的事情之間的差距。

Pappas直接解釋了這一差距：

> “最大的傷害不會出現在日誌中——它們發生在通話進行時。等到有人審查通話記錄時，攻擊者已經成功了。真正的風險是實時發生的事情與組織實際能看到的事情之間的差距。” > —— Mike Pappas，Modulate CEO兼聯合創始人

欺詐嘗試越來越依賴緊迫感、情感壓力和冒充，這些在實時交互中顯現。由於人類在政策之前對情感作出反應，這些信號在傳統控制措施干預之前就影響了決策。

Pappas的立場是，檢測必須在這些行為線索發生時進行——需要構建解釋音頻流本身而非轉錄本的模型。

代理人並未接受識別對抗性對話模式的培訓，尤其是在這些模式被設計來繞過驗證步驟時。Pappas認為，期望代理人自行識別這些信號是不現實的；解決方案是給他們提供實時可見的風險指標，使他們在高壓時刻不依賴直覺。

在他的框架中，AI的角色是持續突出這些指標，即使在時間壓力下或面對令人信服的冒充時。

在同一集中，Ken Morino指出，行為和情感線索在簡化為文本時會消失，限制了基於轉錄的系統在檢測操縱方面的有用性。表明某事不對勁的信號——猶豫、語調不匹配、對話引導——一旦交互被扁平化為文字就丟失了。

Morino認為，為實時音頻構建的AI系統可以恢復這些信號，並以適合現有工作流的形式呈現，而無需代理人自行解釋原始音頻模式。

高風險工作流如身份驗證、賬户變更和支付審批之所以暴露，是因為必須快速做出決策，攻擊者利用這種時間壓力。

Jon-Rav Shende補充説，深度偽造欺詐通常通過利用工作流漏洞成功，而大多數安全團隊對實際發生入侵的實時交互可見性有限。他強調使用AI突出與身份風險相關的通話內信號，使安全團隊在交互仍在進行時而非事後獲得可見性。

三個對話中的解決方案模式包括：

在通話中突出風險信號，為代理人提供實時上下文，而非依賴直覺或記憶。
使用音頻原生模型，捕捉語調、猶豫和情感不匹配——這些信號在轉錄中無法保留。
暴露身份和審批過程中的工作流級漏洞，攻擊者利用速度和模糊性。
當風險指標出現時，為代理人提供結構化提示或線索，從而減少高壓交互中的認知負荷。
將安全可見性集成到實時交互中，使團隊不會事後才發現入侵。

用於高風險決策的專用語音智能架構

劇集：為金融服務和客户體驗實現實時語音智能運營——與Modulate的Ken Morino對話

嘉賓： Ken Morino，Modulate市場與行為研究總監

專長： 產品管理、行為研究、用户體驗設計、企業軟件與集成

簡要介紹： Ken Morino在Modulate領導產品和市場研究計劃，幫助塑造AI驅動對話技術和以用户為中心的產品策略。在加入Modulate之前，他在LiveShopper Sassie領導企業產品管理、API集成和大規模客户實施近十年，與主要企業客户和跨職能技術團隊合作。更早前，他在Demarc Security擔任產品、技術銷售和安全解決方案領導職務。他擁有加州大學聖塔芭芭拉分校計算機科學學士學位和經濟學碩士學位。

Ken Morino認為，大多數組織試圖用從未為身份識別設計的系統來解決身份關鍵問題。

市場上的主流工具——ASR管道、轉錄分析和通用LLM——是為摘要、情感評分和合規審查而構建的。它們基於文本而非音頻運行，並假設準確性要求是靈活的。在身份驗證和賬户變更工作流中，這些假設立即失效。

技術約束是不可協商的：

身份工作流有固定的延遲預算。響應需1.5秒的模型在必須在300毫秒內批准或拒絕行動的系統內不可用。
基於轉錄的系統丟棄了聲學特徵——音高、音色、微停頓、諧波結構——這些是身份系統依賴的。
通用LLM無法達到身份級準確性閾值。95%準確的模型在剩餘5%是欺詐時是災難性的。
單一模型方法失敗，因為沒有一個單獨信號（聲紋、措辭、元數據）足以可靠檢測合成音頻。
客户體驗分析系統缺乏多信號融合，而這是將聲學、行為和上下文指標結合成可防禦身份決策所必需的。

Morino總結了核心限制：

> “一旦你將對話簡化為文本，你就失去了猶豫、語調和情感不匹配——所有告訴你不對勁的東西。” > —— Ken Morino，Modulate市場與行為研究總監

Mike Pappas補充説，身份關鍵決策需要集成架構——多個專門模型處理音頻信號的不同部分，並匯聚成單一風險評估。

Jon-Rav Shende指出，保險公司和監管機構越來越期望審計就緒證據，顯示每個信號如何促成決策。他們共同認為，身份驗證、賬户變更和支付審批需要專用架構，而非重新利用的分析堆棧。

工作流級治理與語音AI成果的共享所有權

劇集：為什麼深度偽造欺詐擊敗的是你的工作流，而非你的技術——與Thales集團的Jon-Rav Shende對話

嘉賓： Jon-Rav Shende，Thales集團全球數據與AI CTO

專長： AI安全、雲與企業轉型、網絡安全與風險管理、數據治理與可信AI

簡要介紹： Jon-Rav Shende在Thales、Sutherland和ForenSec Global擔任高級技術和安全領導職務，專注於AI、網絡安全和企業轉型。他領導了全球企業的大規模雲、安全和AI現代化項目，包括財富500強組織和數十億美元的轉型計劃。他還曾在Ernst & Young和Cognizant等主要技術和諮詢生態系統工作，以及AWS、Azure和Google等雲平台。他積極參與InfraGard，並在AI治理、網絡韌性和可信AI採用方面擁有廣泛經驗。

Jon-Rav Shende在對話中的貢獻是，檢測風險的技術能力只是問題的一半。另一半是組織性的：一旦系統能夠突出身份相關信號，企業必須決定誰擁有響應權、如何捕獲證據以及決策如何對監管機構、審計師和保險公司具有可防禦性。

在他看來，失敗模式不僅僅是技術能力的缺失，而是工作流導致的漏洞：攻擊者利用審批流程中的速度和模糊性，在安全團隊意識到之前就完成了攻擊。

解決方案需要跨越安全、運營和客户體驗部門的共享所有權，每個部門在整體響應中扮演明確角色。Shende強調使用AI實時突出風險信號，同時捕獲審計軌跡，使企業事後能夠證明每一步行動。

他總結道：“深度偽造欺詐不是利用你的AI弱點——它利用你的工作流弱點。如果你沒有跨越部門的風險可見性和共享所有權，你就是在憑運氣運行。”

通過這三個對話，企業可以採取以下步驟保護語音通道：

評估當前語音交互的可見性——是否在通話中或事後檢測風險？
投資音頻原生AI模型，能夠捕獲轉錄丟失的信號。
為身份關鍵決策實施集成架構，結合聲學、行為和上下文信號。
跨安全、運營和客户體驗部門建立工作流治理，確保明確升級路徑和審計證據。
為代理人提供實時風險指標和結構化提示減少認知負荷。

隨着AI驅動欺詐的持續增長，實時保護語音通道不再是可選，而是企業風險管理的核心要求。