超越轉錄:ASR模型在200毫秒內傳遞文字、情感和意圖
Whissle的META-1模型是一種元感知語音識別系統,能夠在單次前向傳播中同時輸出轉錄文本和元數據(情感、意圖、年齡、性別等),延遲約200毫秒。通過集成KenLM n-gram語言模型,該系統將詞錯誤率降低了高達3.6%(相對10.8%),同時在多語言基準測試中顯著快於Deepgram、AssemblyAI和Gemini 2.0 Flash等商業解決方案。
Whissle研究團隊近日發佈了一種全新的語音識別方法,其Meta-aware Voice Action Model(META-1)能夠在一次前向傳播中同時輸出轉錄文本和豐富的元數據——包括情感、意圖、年齡、性別和説話人切換等信息。傳統語音識別系統只能輸出文字,要獲取額外信息需要調用多個API,增加延遲和成本。而Whissle的模型將所有信息整合在一個流中,延遲僅為200毫秒,比最接近的元數據解決方案快9倍。
然而,基於CTC的模型有一個眾所周知的弱點:它們逐幀解碼,缺乏語言知識,容易產生錯誤的單詞邊界和非詞猜測。當詞彙表包含約10,000個元數據令牌和約8,000個文本令牌時,問題更加嚴重。Whissle的解決方案是使用傳統的n-gram語言模型——KenLM,它本質上是一個單詞序列概率的查找表。該模型運行時間不足毫秒,無需GPU,且沒有幻覺風險。通過束搜索算法,系統探索多個假設,並使用n-gram語言模型進行評分,從而選擇最合理的單詞序列。
Whissle在四種語言(英語、西班牙語、德語和印地語)上對系統進行了基準測試,使用了1,300個真實音頻樣本和五種提供商配置。結果顯示,語言模型使德語和西班牙語的詞錯誤率降低了高達3.6%(相對降低10.8%),同時模型以約200毫秒的延遲流式傳輸情感、意圖和人口統計信息。相比之下,Deepgram Nova-3、AssemblyAI Universal Streaming和Gemini 2.0 Flash的元數據提取延遲在0.9至2.2秒之間。
測試採用了公平的比較方法:所有提供商接收相同的音頻(PCM int16, 單聲道, 16kHz),並使用相同的文本歸一化標準計算WER。數據集包括LibriSpeech(英語)、Multilingual LibriSpeech(西班牙語和德語)以及Meta STT Hindi(印地語)。Whissle的兩種配置(貪婪解碼和帶LM的束搜索)與Deepgram、AssemblyAI和Gemini進行對比。特別值得注意的是,Gemini 2.0 Flash是一種批量LLM,並非流式ASR服務,其延遲代表了完全不同的架構。
n-gram語言模型的關鍵創新在於,它使用Whissle聲學模型訓練數據中的文本轉錄進行訓練,確保了與聲學模型所見域的高度對齊。訓練過程包括提取參考轉錄、進行文本歸一化、使用KenLM訓練3-gram模型,並應用剪枝策略。最終每個語言組生成對應的二進制語言模型文件,在服務器啓動時加載。
通過CTC束搜索的淺融合技術,聲學模型分數和語言模型分數相結合,有效提升了轉錄準確性,同時不干擾元數據令牌的預測。由於元數據令牌在log-softmax歸一化後被抑制,語言模型僅作用於文本令牌,保證了正確的概率分佈。
這一突破意味着實時語音應用可以同時獲得高精度的轉錄和豐富的元數據,而無需複雜的多系統集成。Whissle預計,這一技術將在客户服務、會議轉錄、語音助手等領域發揮重要作用。