Loka 如何利用 Amazon Nova 2 Sonic 構建自然、低延遲的語音代理
Loka 使用 Amazon Nova 2 Sonic 構建了對話式 AI 代理,通過原生語音到語音模型解決了傳統語音助手延遲高、不自然的問題,實現了低成本、高準確率的客户互動。
Loka 近日展示瞭如何利用 Amazon Nova 2 Sonic 構建一個自然、低延遲的語音代理,徹底改變了客户語音交互體驗。傳統語音助手常因延遲和機械感導致客户掛斷,損害品牌聲譽並增加支持成本。Loka 的 AWS 解決方案通過原生語音到語音模型,在 Big Bench Audio 基準測試中實現了高達 87.0 的語音推理準確率,同時顯著降低了成本和響應時間。
傳統語音助手的問題根源在於其三步處理流程:首先將語音轉換為文本(語音轉文本),然後通過大語言模型(LLM)處理文本,最後將文本響應轉換回語音(文本轉語音)。每一步都會引入延遲,導致用户在聽到響應前等待 3 到 5 秒,破壞了自然的對話節奏。例如,在汽車經銷商的真實場景中,客户呼叫詢問“那款廣告中的 SUV,但不要混合動力版本,我只能在下午 5 點後到店”,助手需要同時解析多個信息單元,理解意圖、否定和日程約束。傳統系統在轉換過程中丟失了語調、猶豫和緊迫感等微妙線索,導致誤解和重複延遲。經濟性方面,大規模部署傳統實時語音系統成本高昂,尤其在處理連續音頻流時,阻礙了語音 AI 的普及。
針對這一瓶頸,最新進展允許開發者直接向語音到語音模型發送音頻流,實現理解、推理和生成的統一處理。Amazon Nova 2 Sonic 正是此類模型,它端到端處理音頻,捕捉語調、情感等細微信息。在 Big Bench Audio 測試中,Nova 2 Sonic 的語音推理得分達 87.0,超越 Gemini 2.5 Flash Native Audio(71.0)和 GPT Realtime(83.0),證明原生音頻處理未犧牲智能性。延遲方面,首次音頻時間(TTFA)為 1.39 秒,支持自然的“打斷”行為。成本方面,每小時輸入音頻約 0.27 美元,低於同類實時模型。
為了衡量質量,Loka 構建了自動化評估管道,使用 LLM 作為評判員,從五個維度(響應適當性、意圖理解、完整性、對話自然性、錯誤恢復)進行 1-5 分評分。與基線 Nova Sonic 相比,Nova 2 Sonic 的響應適當性從 2.5 提升至 2.9,意圖理解從 2.9 升至 3.0,完整性從 1.8 躍升至 2.5,對話自然性從 2.5 升至 2.8,總體評分從 2.4 增至 2.7。
工程優化是關鍵。Loka 將提示視為代碼,通過迭代提升性能。初始基線評分為 2.7,第一次提示優化後升至 3.1,第二次迭代達到 3.8。優化包括:將硬編碼的經銷商詳情替換為模板變量(如 {assistant_name}),使提示可複用;格式從編號列表改為帶標題的要點,減少主題間指令混淆;添加具體行為示例和預響應檢查清單。Amazon Bedrock 提示管理提供了版本控制、IAM 安全控制和運行時變量注入,將提示工程轉化為可重複、可審計的工作流。
在實際測試中,Loka 模擬了憤怒客户、忙碌家長、健談客户、困惑客户和老年客户等場景。忙碌家長場景在五個維度均獲 5.0 分,憤怒客户和困惑客户場景總體評分為 4.5。但健談客户和老年客户場景評分較低(均為 3.0),表明在處理冗長、雜亂輸入時仍有改進空間,平均邊緣案例評分為 4.0,顯示強大的現實就緒性。
生產架構採用 LiveKit 作為傳輸層,AWS Fargate 提供計算層,Amazon ECS 容器化 LiveKit Agents,實現獨立擴縮。Amazon RDS 用於持久存儲,Amazon ElastiCache 處理會話協調,Amazon Bedrock 提供模型訪問。Web 客户端通過 WebRTC 連接,電話通過 SIP 中繼經網絡負載均衡器路由。可觀測性由自託管於 AWS 上的 Langfuse 提供,追蹤每個代理決策和工具調用。
這一成果標誌着從文本聊天機器人向實時語音代理的轉變,不僅改變了界面,更要求全新的基礎設施和思維。Nova 2 Sonic 同時滿足高推理能力、低延遲和經濟性三大工程要求,為對話式 AI 樹立了新標準。