AI News HubLIVE
站内改写2 分鐘閱讀

超越轉錄:ASR模型在200毫秒內傳遞文字、情感和意圖

Whissle的META-1模型是一種元感知語音識別系統,能夠在單次前向傳播中同時輸出轉錄文本和後設資料(情感、意圖、年齡、性別等),延遲約200毫秒。透過整合KenLM n-gram語言模型,該系統將詞錯誤率降低了高達3.6%(相對10.8%),同時在多語言基準測試中顯著快於Deepgram、AssemblyAI和Gemini 2.0 Flash等商業解決方案。

來源Hacker News AI作者: ksingla025

Whissle研究團隊近日釋出了一種全新的語音識別方法,其Meta-aware Voice Action Model(META-1)能夠在一次前向傳播中同時輸出轉錄文本和豐富的後設資料——包括情感、意圖、年齡、性別和說話人切換等資訊。傳統語音識別系統只能輸出文字,要獲取額外資訊需要呼叫多個API,增加延遲和成本。而Whissle的模型將所有資訊整合在一個流中,延遲僅為200毫秒,比最接近的後設資料解決方案快9倍。

然而,基於CTC的模型有一個眾所周知的弱點:它們逐幀解碼,缺乏語言知識,容易產生錯誤的單詞邊界和非詞猜測。當詞彙表包含約10,000個後設資料令牌和約8,000個文本令牌時,問題更加嚴重。Whissle的解決方案是使用傳統的n-gram語言模型——KenLM,它本質上是一個單詞序列機率的查詢表。該模型執行時間不足毫秒,無需GPU,且沒有幻覺風險。透過束搜尋演算法,系統探索多個假設,並使用n-gram語言模型進行評分,從而選擇最合理的單詞序列。

Whissle在四種語言(英語、西班牙語、德語和印地語)上對系統進行了基準測試,使用了1,300個真實音訊樣本和五種提供商配置。結果顯示,語言模型使德語和西班牙語的詞錯誤率降低了高達3.6%(相對降低10.8%),同時模型以約200毫秒的延遲流式傳輸情感、意圖和人口統計資訊。相比之下,Deepgram Nova-3、AssemblyAI Universal Streaming和Gemini 2.0 Flash的後設資料提取延遲在0.9至2.2秒之間。

測試採用了公平的比較方法:所有提供商接收相同的音訊(PCM int16, 單聲道, 16kHz),並使用相同的文本歸一化標準計算WER。資料集包括LibriSpeech(英語)、Multilingual LibriSpeech(西班牙語和德語)以及Meta STT Hindi(印地語)。Whissle的兩種配置(貪婪解碼和帶LM的束搜尋)與Deepgram、AssemblyAI和Gemini進行對比。特別值得注意的是,Gemini 2.0 Flash是一種批次LLM,並非流式ASR服務,其延遲代表了完全不同的架構。

n-gram語言模型的關鍵創新在於,它使用Whissle聲學模型訓練資料中的文本轉錄進行訓練,確保了與聲學模型所見域的高度對齊。訓練過程包括提取參考轉錄、進行文本歸一化、使用KenLM訓練3-gram模型,並應用剪枝策略。最終每個語言組生成對應的二進位制語言模型檔案,在伺服器啟動時載入。

透過CTC束搜尋的淺融合技術,聲學模型分數和語言模型分數相結合,有效提升了轉錄準確性,同時不干擾後設資料令牌的預測。由於後設資料令牌在log-softmax歸一化後被抑制,語言模型僅作用於文本令牌,保證了正確的機率分佈。

這一突破意味著即時語音應用可以同時獲得高精度的轉錄和豐富的後設資料,而無需複雜的多系統整合。Whissle預計,這一技術將在客戶服務、會議轉錄、語音助手等領域發揮重要作用。