如何針對您的語言、領域或口音微調 Nemotron 3.5 ASR
NVIDIA 釋出了 Nemotron 3.5 ASR,這是一個 600M 引數的流式多語言語音轉文本模型,支援 40 種語言區域,具有低延遲、高準確度,並內建標點和大小寫處理。文章詳細介紹瞭如何透過微調將該模型適應特定語言、領域或口音,並以希臘語和保加利亞語為例展示了顯著的詞錯誤率降低。
NVIDIA 近日釋出了 Nemotron 3.5 ASR,這是其流行的 Nemotron 3 ASR 模型的繼任者,後者僅支援英語。新模型是一個擁有 600M 引數的流式多語言語音轉文本模型,能夠從單個檢查點即時轉錄 40 種語言區域,並內建標點和大寫功能。該模型已在 Artificial Analysis 的獨立基準測試中得到驗證,在流式 ASR 模型中延遲排名第二——語音結束後僅需 0.07 秒即可生成最終轉錄文本——並且在 AA-WER 流式索引與最終轉錄時間排行榜中處於“最具吸引力象限”,在準確性與延遲的權衡中表現優異。
當前多語言語音識別面臨幾個主要問題:為了支援多種語言,開發者常需整合多個模型或 API,導致基礎設施複雜;流式與準確度難以兼得,許多系統透過重複處理重疊音訊視窗來模擬流式,消耗計算資源並增加延遲;後處理流程繁瑣,需要額外模型新增標點和大小寫;以及系統通常要求預先指定語言,無法處理語種切換。Nemotron 3.5 ASR 旨在用一個模型解決所有這些問題。
該模型的核心架構包括一個 Cache-Aware FastConformer 編碼器(24 層)和一個 RNNT 解碼器。編碼器透過快取之前的自注意力和卷積啟用狀態,避免重複計算,從而實現真正的低延遲流式處理。模型還支援語言條件化:使用者可指定輸入語言以獲得最佳準確度,或設為自動模式讓模型自行檢測語言。
模型提供了一個關鍵引數 att_context_size,用於控制延遲與準確度的權衡。不同的上下文尺寸對應不同的應用場景,從超低延遲的語音助手到高準確度的離線轉錄,無需重新訓練即可在推理時選擇。
文章重點介紹了微調流程。由於訓練資料中部分語言資源較少,針對這些語言的微調可以顯著提升效能。以希臘語和保加利亞語為例,研究團隊使用了約 2000 小時的公開多語言語料庫進行微調,並在 FLEURS 測試集上評估。在最低延遲設定(80ms 塊大小)下,希臘語的詞錯誤率從 35% 降至 24%(相對改善 32%),保加利亞語從 22% 降至 15%(相對改善 31%)。進一步增加約 2000 小時的議會語音資料後,保加利亞語的詞錯誤率降至接近 20%,證明更多資料持續帶來改進。
微調流程分為五步:準備帶語言標籤的 tarred 資料、從基礎檢查點進行全模型微調、在保留資料集上評估、根據需要增加資料並重新訓練、匯出並部署微調後的檢查點。微調後的模型與基礎模型架構相同,可直接部署並選擇相同的延遲-準確度操作點。