2026-06-04 20:59 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

如何針對您的語言、領域或口音微調 Nemotron 3.5 ASR

NVIDIA 發佈了 Nemotron 3.5 ASR，這是一個 600M 參數的流式多語言語音轉文本模型，支持 40 種語言區域，具有低延遲、高準確度，並內置標點和大小寫處理。文章詳細介紹瞭如何通過微調將該模型適應特定語言、領域或口音，並以希臘語和保加利亞語為例展示了顯著的詞錯誤率降低。

來源Hugging Face Blog

NVIDIA 近日發佈了 Nemotron 3.5 ASR，這是其流行的 Nemotron 3 ASR 模型的繼任者，後者僅支持英語。新模型是一個擁有 600M 參數的流式多語言語音轉文本模型，能夠從單個檢查點實時轉錄 40 種語言區域，並內置標點和大寫功能。該模型已在 Artificial Analysis 的獨立基準測試中得到驗證，在流式 ASR 模型中延遲排名第二——語音結束後僅需 0.07 秒即可生成最終轉錄文本——並且在 AA-WER 流式索引與最終轉錄時間排行榜中處於“最具吸引力象限”，在準確性與延遲的權衡中表現優異。

當前多語言語音識別面臨幾個主要問題：為了支持多種語言，開發者常需集成多個模型或 API，導致基礎設施複雜；流式與準確度難以兼得，許多系統通過重複處理重疊音頻窗口來模擬流式，消耗計算資源並增加延遲；後處理流程繁瑣，需要額外模型添加標點和大小寫；以及系統通常要求預先指定語言，無法處理語種切換。Nemotron 3.5 ASR 旨在用一個模型解決所有這些問題。

該模型的核心架構包括一個 Cache-Aware FastConformer 編碼器（24 層）和一個 RNNT 解碼器。編碼器通過緩存之前的自注意力和卷積激活狀態，避免重複計算，從而實現真正的低延遲流式處理。模型還支持語言條件化：用户可指定輸入語言以獲得最佳準確度，或設為自動模式讓模型自行檢測語言。

模型提供了一個關鍵參數 att_context_size，用於控制延遲與準確度的權衡。不同的上下文尺寸對應不同的應用場景，從超低延遲的語音助手到高準確度的離線轉錄，無需重新訓練即可在推理時選擇。

文章重點介紹了微調流程。由於訓練數據中部分語言資源較少，針對這些語言的微調可以顯著提升性能。以希臘語和保加利亞語為例，研究團隊使用了約 2000 小時的公開多語言語料庫進行微調，並在 FLEURS 測試集上評估。在最低延遲設置（80ms 塊大小）下，希臘語的詞錯誤率從 35% 降至 24%（相對改善 32%），保加利亞語從 22% 降至 15%（相對改善 31%）。進一步增加約 2000 小時的議會語音數據後，保加利亞語的詞錯誤率降至接近 20%，證明更多數據持續帶來改進。

微調流程分為五步：準備帶語言標籤的 tarred 數據、從基礎檢查點進行全模型微調、在保留數據集上評估、根據需要增加數據並重新訓練、導出並部署微調後的檢查點。微調後的模型與基礎模型架構相同，可直接部署並選擇相同的延遲-準確度操作點。