AI News HubLIVE
站内改写2 分鐘閱讀

為什麼標準WER不適用於印度語言

本文分析了標準WER/CER在評估印度語言語音識別系統時的侷限性,並提出了基於LLM的分層評估方法,包括LLM-WER、LLM-CER、意圖得分和實體保留得分,以更準確地反映系統性能。

來源Hacker News AI作者: laxmena

印度語言語音識別評估的挑戰

標準的詞錯誤率(WER)和字符錯誤率(CER)在評估印度語言自動語音識別(ASR)系統時存在根本性缺陷。這些指標最初為英語設計,假設每個單詞有固定拼寫、語言不混合、正式與口語差異小。然而,印度語言(如印地語、泰米爾語、馬拉雅拉姆語等)具有口語變體、代碼混合、多書寫形式等特徵,導致WER/CER將正確的轉錄誤判為錯誤。

例如,泰米爾語中口語化的“அவுங்க ஒண்ணா வேலை செய்றாங்க”與正式寫法“அவர்கள் ஒன்றாக வேலை செய்கிறார்கள்”含義相同,但WER會將其標記為80%的錯誤。同樣,印地語中的英語藉詞“doctor”可以用拉丁或天城字體書寫,WER均視為錯誤。在馬拉雅拉姆語等黏着語中,一個後綴的微小變化會導致整個詞的字符級編輯距離顯著增加,從而產生極高的CER。

分層評估框架

為克服這些侷限,文章提出了基於大語言模型(LLM)的分層評估方法:

  1. LLM-WER/LLM-CER:由LLM判斷轉錄是否語義或語音等價,不因表面差異扣分。
  2. 意圖得分:二元指標(0或1),評判核心含義是否保留。
  3. 實體保留得分:0到1之間的分數,衡量命名實體(人名、地名、數字、日期)正確出現的比例。
  4. COMET:基於神經網絡的翻譯質量評估,優於BLEU。

這些指標與傳統WER/CER結合使用,提供更全面的評估。文章還指出,對於逐字輸出模式,標準WER仍然適用;但在其他模式下,LLM指標更能反映真實性能。

Saaras V3示例

文章以Sarvam公司的Saaras V3 API為例,該API支持22種印度語言,提供五種輸出模式:轉寫(標準歸一化)、翻譯、逐字輸出、拉丁轉寫和代碼混合輸出。每種模式對應不同的評估指標。例如,轉寫模式使用LLM-WER/LLM-CER,翻譯模式使用意圖得分和實體得分,代碼混合模式則結合LLM-WER和實體得分。API還提供REST、批量和WebSocket三種交付方式,滿足不同場景需求。

六個失敗場景

文章詳細列舉了標準指標失效的六種情況:口語變體、代碼混合、短助詞懲罰、黏着語後綴替換、音譯差異和數字形式變化。每種情況都通過具體語言例子説明,並展示了LLM指標如何糾正誤判。例如,在印地語中,助詞“नहीं”因回聲重複導致WER高達300%,而實際上語義完全正確。

開放源代碼框架

文章還介紹了兩個開源評估框架:llm_werllm_intent_entity,可集成到現有流水線中評估任意印度語言ASR系統。作者強調,該分層框架並非最終答案,但比單一指標更接近實際需求,且工具已可用於生產。總體而言,針對印度語言的ASR評估需要多層指標,避免單一指標的偏見,從而更真實地反映系統性能。