AI News HubLIVE
站內改寫2 分鐘閱讀

Loka 如何利用 Amazon Nova 2 Sonic 構建自然、低延遲的語音代理

Loka 使用 Amazon Nova 2 Sonic 構建了對話式 AI 代理,透過原生語音到語音模型解決了傳統語音助手延遲高、不自然的問題,實現了低成本、高準確率的客戶互動。

來源AWS Machine Learning Blog作者: Bojan Jakimovski

Loka 近日展示瞭如何利用 Amazon Nova 2 Sonic 構建一個自然、低延遲的語音代理,徹底改變了客戶語音互動體驗。傳統語音助手常因延遲和機械感導致客戶結束通話,損害品牌聲譽並增加支援成本。Loka 的 AWS 解決方案透過原生語音到語音模型,在 Big Bench Audio 基準測試中實現了高達 87.0 的語音推理準確率,同時顯著降低了成本和響應時間。

傳統語音助手的問題根源在於其三步處理流程:首先將語音轉換為文本(語音轉文本),然後透過大語言模型(LLM)處理文本,最後將文本響應轉換回語音(文本轉語音)。每一步都會引入延遲,導致使用者在聽到響應前等待 3 到 5 秒,破壞了自然的對話節奏。例如,在汽車經銷商的真實場景中,客戶呼叫詢問“那款廣告中的 SUV,但不要混合動力版本,我只能在下午 5 點後到店”,助手需要同時解析多個資訊單元,理解意圖、否定和日程約束。傳統系統在轉換過程中丟失了語調、猶豫和緊迫感等微妙線索,導致誤解和重複延遲。經濟性方面,大規模部署傳統即時語音系統成本高昂,尤其在處理連續音訊流時,阻礙了語音 AI 的普及。

針對這一瓶頸,最新進展允許開發者直接向語音到語音模型傳送音訊流,實現理解、推理和生成的統一處理。Amazon Nova 2 Sonic 正是此類模型,它端到端處理音訊,捕捉語調、情感等細微資訊。在 Big Bench Audio 測試中,Nova 2 Sonic 的語音推理得分達 87.0,超越 Gemini 2.5 Flash Native Audio(71.0)和 GPT Realtime(83.0),證明原生音訊處理未犧牲智慧性。延遲方面,首次音訊時間(TTFA)為 1.39 秒,支援自然的“打斷”行為。成本方面,每小時輸入音訊約 0.27 美元,低於同類即時模型。

為了衡量質量,Loka 構建了自動化評估管道,使用 LLM 作為評判員,從五個維度(響應適當性、意圖理解、完整性、對話自然性、錯誤恢復)進行 1-5 分評分。與基線 Nova Sonic 相比,Nova 2 Sonic 的響應適當性從 2.5 提升至 2.9,意圖理解從 2.9 升至 3.0,完整性從 1.8 躍升至 2.5,對話自然性從 2.5 升至 2.8,總體評分從 2.4 增至 2.7。

工程最佳化是關鍵。Loka 將提示視為程式碼,透過迭代提升效能。初始基線評分為 2.7,第一次提示最佳化後升至 3.1,第二次迭代達到 3.8。最佳化包括:將硬編碼的經銷商詳情替換為模板變數(如 {assistant_name}),使提示可複用;格式從編號列表改為帶標題的要點,減少主題間指令混淆;新增具體行為示例和預響應檢查清單。Amazon Bedrock 提示管理提供了版本控制、IAM 安全控制和執行時變數注入,將提示工程轉化為可重複、可審計的工作流。

在實際測試中,Loka 模擬了憤怒客戶、忙碌家長、健談客戶、困惑客戶和老年客戶等場景。忙碌家長場景在五個維度均獲 5.0 分,憤怒客戶和困惑客戶場景總體評分為 4.5。但健談客戶和老年客戶場景評分較低(均為 3.0),表明在處理冗長、雜亂輸入時仍有改進空間,平均邊緣案例評分為 4.0,顯示強大的現實就緒性。

生產架構採用 LiveKit 作為傳輸層,AWS Fargate 提供計算層,Amazon ECS 容器化 LiveKit Agents,實現獨立擴縮。Amazon RDS 用於持久儲存,Amazon ElastiCache 處理會話協調,Amazon Bedrock 提供模型訪問。Web 客戶端透過 WebRTC 連線,電話透過 SIP 中繼經網路負載均衡器路由。可觀測性由自託管於 AWS 上的 Langfuse 提供,追蹤每個代理決策和工具呼叫。

這一成果標誌著從文本聊天機器人向即時語音代理的轉變,不僅改變了介面,更要求全新的基礎設施和思維。Nova 2 Sonic 同時滿足高推理能力、低延遲和經濟性三大工程要求,為對話式 AI 樹立了新標準。