如何針對您的語言、領域或口音微調 Nemotron 3.5 ASR
NVIDIA 發佈了 Nemotron 3.5 ASR,這是一個 600M 參數的流式多語言語音轉文本模型,支持 40 種語言區域,具有低延遲、高準確度,並內置標點和大小寫處理。文章詳細介紹瞭如何通過微調將該模型適應特定語言、領域或口音,並以希臘語和保加利亞語為例展示了顯著的詞錯誤率降低。
NVIDIA 近日發佈了 Nemotron 3.5 ASR,這是其流行的 Nemotron 3 ASR 模型的繼任者,後者僅支持英語。新模型是一個擁有 600M 參數的流式多語言語音轉文本模型,能夠從單個檢查點實時轉錄 40 種語言區域,並內置標點和大寫功能。該模型已在 Artificial Analysis 的獨立基準測試中得到驗證,在流式 ASR 模型中延遲排名第二——語音結束後僅需 0.07 秒即可生成最終轉錄文本——並且在 AA-WER 流式索引與最終轉錄時間排行榜中處於“最具吸引力象限”,在準確性與延遲的權衡中表現優異。
當前多語言語音識別面臨幾個主要問題:為了支持多種語言,開發者常需集成多個模型或 API,導致基礎設施複雜;流式與準確度難以兼得,許多系統通過重複處理重疊音頻窗口來模擬流式,消耗計算資源並增加延遲;後處理流程繁瑣,需要額外模型添加標點和大小寫;以及系統通常要求預先指定語言,無法處理語種切換。Nemotron 3.5 ASR 旨在用一個模型解決所有這些問題。
該模型的核心架構包括一個 Cache-Aware FastConformer 編碼器(24 層)和一個 RNNT 解碼器。編碼器通過緩存之前的自注意力和卷積激活狀態,避免重複計算,從而實現真正的低延遲流式處理。模型還支持語言條件化:用户可指定輸入語言以獲得最佳準確度,或設為自動模式讓模型自行檢測語言。
模型提供了一個關鍵參數 att_context_size,用於控制延遲與準確度的權衡。不同的上下文尺寸對應不同的應用場景,從超低延遲的語音助手到高準確度的離線轉錄,無需重新訓練即可在推理時選擇。
文章重點介紹了微調流程。由於訓練數據中部分語言資源較少,針對這些語言的微調可以顯著提升性能。以希臘語和保加利亞語為例,研究團隊使用了約 2000 小時的公開多語言語料庫進行微調,並在 FLEURS 測試集上評估。在最低延遲設置(80ms 塊大小)下,希臘語的詞錯誤率從 35% 降至 24%(相對改善 32%),保加利亞語從 22% 降至 15%(相對改善 31%)。進一步增加約 2000 小時的議會語音數據後,保加利亞語的詞錯誤率降至接近 20%,證明更多數據持續帶來改進。
微調流程分為五步:準備帶語言標籤的 tarred 數據、從基礎檢查點進行全模型微調、在保留數據集上評估、根據需要增加數據並重新訓練、導出並部署微調後的檢查點。微調後的模型與基礎模型架構相同,可直接部署並選擇相同的延遲-準確度操作點。