2026-06-17站内改写2 分鐘閱讀更新: 2026-06-17

為什麼標準WER不適用於印度語言

本文分析了標準WER/CER在評估印度語言語音識別系統時的侷限性，並提出了基於LLM的分層評估方法，包括LLM-WER、LLM-CER、意圖得分和實體保留得分，以更準確地反映系統性能。

來源Hacker News AI作者: laxmena

印度語言語音識別評估的挑戰

標準的詞錯誤率（WER）和字符錯誤率（CER）在評估印度語言自動語音識別（ASR）系統時存在根本性缺陷。這些指標最初為英語設計，假設每個單詞有固定拼寫、語言不混合、正式與口語差異小。然而，印度語言（如印地語、泰米爾語、馬拉雅拉姆語等）具有口語變體、代碼混合、多書寫形式等特徵，導致WER/CER將正確的轉錄誤判為錯誤。

例如，泰米爾語中口語化的“அவுங்க ஒண்ணா வேலை செய்றாங்க”與正式寫法“அவர்கள் ஒன்றாக வேலை செய்கிறார்கள்”含義相同，但WER會將其標記為80%的錯誤。同樣，印地語中的英語藉詞“doctor”可以用拉丁或天城字體書寫，WER均視為錯誤。在馬拉雅拉姆語等黏着語中，一個後綴的微小變化會導致整個詞的字符級編輯距離顯著增加，從而產生極高的CER。

分層評估框架

為克服這些侷限，文章提出了基於大語言模型（LLM）的分層評估方法：

LLM-WER/LLM-CER：由LLM判斷轉錄是否語義或語音等價，不因表面差異扣分。
意圖得分：二元指標（0或1），評判核心含義是否保留。
實體保留得分：0到1之間的分數，衡量命名實體（人名、地名、數字、日期）正確出現的比例。
COMET：基於神經網絡的翻譯質量評估，優於BLEU。

這些指標與傳統WER/CER結合使用，提供更全面的評估。文章還指出，對於逐字輸出模式，標準WER仍然適用；但在其他模式下，LLM指標更能反映真實性能。

Saaras V3示例

文章以Sarvam公司的Saaras V3 API為例，該API支持22種印度語言，提供五種輸出模式：轉寫（標準歸一化）、翻譯、逐字輸出、拉丁轉寫和代碼混合輸出。每種模式對應不同的評估指標。例如，轉寫模式使用LLM-WER/LLM-CER，翻譯模式使用意圖得分和實體得分，代碼混合模式則結合LLM-WER和實體得分。API還提供REST、批量和WebSocket三種交付方式，滿足不同場景需求。

六個失敗場景

文章詳細列舉了標準指標失效的六種情況：口語變體、代碼混合、短助詞懲罰、黏着語後綴替換、音譯差異和數字形式變化。每種情況都通過具體語言例子説明，並展示了LLM指標如何糾正誤判。例如，在印地語中，助詞“नहीं”因回聲重複導致WER高達300%，而實際上語義完全正確。

開放源代碼框架

文章還介紹了兩個開源評估框架：llm_wer 和 llm_intent_entity，可集成到現有流水線中評估任意印度語言ASR系統。作者強調，該分層框架並非最終答案，但比單一指標更接近實際需求，且工具已可用於生產。總體而言，針對印度語言的ASR評估需要多層指標，避免單一指標的偏見，從而更真實地反映系統性能。