2026-06-08站内改写1 分鐘閱讀更新: 2026-06-08

大規模評估您的Amazon Nova Sonic語音代理，無需麥克風

本文介紹Nova Sonic測試框架，一個開源工具，可自動執行多輪對話、評估語音代理質量並檢測音訊幻覺。它支援快速迭代提示和工具配置，以及大規模迴歸測試。

語音代理正在改變企業與客戶的互動方式，透過自然語音對話處理預約、訂單查詢、賬戶管理等任務。然而，這些代理的測試面臨獨特挑戰：它們雙向流式傳輸音訊、響應非確定性、維護多輪上下文並即時使用工具。傳統方法依賴人工對話，緩慢且不可擴充套件。

AWS推出的Nova Sonic測試框架是一個開源解決方案，旨在解決兩大關鍵問題：迭代系統提示和工具配置時速度慢，以及缺乏可靠的評估體系。該框架可自動執行完整的多輪對話，使用LLM-as-judge技術評估質量，甚至能檢測模型音訊輸出與文本輸出不匹配的“音訊幻覺”。無需麥克風。

語音測試的獨特挑戰包括：雙向流（全雙工連線）、非確定性響應（每次回覆不同）、多輪上下文（需跨回合推理）、音訊-文本差異（可能說出不同內容）以及會話超時（約8分鐘）。測試框架均能處理這些。

工作流程分為四步：定義測試場景（JSON配置）、執行對話（使用者模擬器與Nova Sonic互動）、評估結果（LLM法官基於標準評分）、生成報告。使用者定義目標和評估標準，而非預期輸出。框架使用模型登錄檔對映別名，支援長會話的自動重連。

評估包含六個內建指標，分為三級：關鍵指標（目標達成、響應準確性）決定透過/失敗；重要指標（工具使用、對話流暢性、系統提示合規）影響透過率；諮詢指標（語音格式）僅供報告。每個指標透過多個YES/NO問題嚴格評估。

音訊幻覺檢測流程：將每輪音訊上傳至S3，用Amazon Transcribe轉寫，與文本輸出比較，分類差異為填充詞、措辭變體或事實錯誤。這對傳遞具體事實（如時間、價格）的代理至關重要。

框架支援大規模測試：可並行執行12個醫療場景、8個銀行場景等，重複測試以測量變異性。批次執行後，儀表板顯示透過率、指標細分、失敗關聯等。輸出包含PASS/FAIL結果和數值透過率，適合CI/CD整合。附帶了場景包，可直接使用。