AI News HubLIVE
站内改写1 分鐘閱讀

大規模評估您的Amazon Nova Sonic語音代理,無需麥克風

本文介紹Nova Sonic測試框架,一個開源工具,可自動執行多輪對話、評估語音代理質量並檢測音訊幻覺。它支援快速迭代提示和工具配置,以及大規模迴歸測試。

來源AWS Machine Learning Blog作者: Osman Ipek

語音代理正在改變企業與客戶的互動方式,透過自然語音對話處理預約、訂單查詢、賬戶管理等任務。然而,這些代理的測試面臨獨特挑戰:它們雙向流式傳輸音訊、響應非確定性、維護多輪上下文並即時使用工具。傳統方法依賴人工對話,緩慢且不可擴充套件。

AWS推出的Nova Sonic測試框架是一個開源解決方案,旨在解決兩大關鍵問題:迭代系統提示和工具配置時速度慢,以及缺乏可靠的評估體系。該框架可自動執行完整的多輪對話,使用LLM-as-judge技術評估質量,甚至能檢測模型音訊輸出與文本輸出不匹配的“音訊幻覺”。無需麥克風。

語音測試的獨特挑戰包括:雙向流(全雙工連線)、非確定性響應(每次回覆不同)、多輪上下文(需跨回合推理)、音訊-文本差異(可能說出不同內容)以及會話超時(約8分鐘)。測試框架均能處理這些。

工作流程分為四步:定義測試場景(JSON配置)、執行對話(使用者模擬器與Nova Sonic互動)、評估結果(LLM法官基於標準評分)、生成報告。使用者定義目標和評估標準,而非預期輸出。框架使用模型登錄檔對映別名,支援長會話的自動重連。

評估包含六個內建指標,分為三級:關鍵指標(目標達成、響應準確性)決定透過/失敗;重要指標(工具使用、對話流暢性、系統提示合規)影響透過率;諮詢指標(語音格式)僅供報告。每個指標透過多個YES/NO問題嚴格評估。

音訊幻覺檢測流程:將每輪音訊上傳至S3,用Amazon Transcribe轉寫,與文本輸出比較,分類差異為填充詞、措辭變體或事實錯誤。這對傳遞具體事實(如時間、價格)的代理至關重要。

框架支援大規模測試:可並行執行12個醫療場景、8個銀行場景等,重複測試以測量變異性。批次執行後,儀表板顯示透過率、指標細分、失敗關聯等。輸出包含PASS/FAIL結果和數值透過率,適合CI/CD整合。附帶了場景包,可直接使用。