2026-06-17站内改写2 分钟阅读更新: 2026-06-17

为什么标准WER不适用于印度语言

本文分析了标准WER/CER在评估印度语言语音识别系统时的局限性，并提出了基于LLM的分层评估方法，包括LLM-WER、LLM-CER、意图得分和实体保留得分，以更准确地反映系统性能。

来源Hacker News AI作者: laxmena

印度语言语音识别评估的挑战

标准的词错误率（WER）和字符错误率（CER）在评估印度语言自动语音识别（ASR）系统时存在根本性缺陷。这些指标最初为英语设计，假设每个单词有固定拼写、语言不混合、正式与口语差异小。然而，印度语言（如印地语、泰米尔语、马拉雅拉姆语等）具有口语变体、代码混合、多书写形式等特征，导致WER/CER将正确的转录误判为错误。

例如，泰米尔语中口语化的“அவுங்க ஒண்ணா வேலை செய்றாங்க”与正式写法“அவர்கள் ஒன்றாக வேலை செய்கிறார்கள்”含义相同，但WER会将其标记为80%的错误。同样，印地语中的英语借词“doctor”可以用拉丁或天城字体书写，WER均视为错误。在马拉雅拉姆语等黏着语中，一个后缀的微小变化会导致整个词的字符级编辑距离显著增加，从而产生极高的CER。

分层评估框架

为克服这些局限，文章提出了基于大语言模型（LLM）的分层评估方法：

LLM-WER/LLM-CER：由LLM判断转录是否语义或语音等价，不因表面差异扣分。
意图得分：二元指标（0或1），评判核心含义是否保留。
实体保留得分：0到1之间的分数，衡量命名实体（人名、地名、数字、日期）正确出现的比例。
COMET：基于神经网络的翻译质量评估，优于BLEU。

这些指标与传统WER/CER结合使用，提供更全面的评估。文章还指出，对于逐字输出模式，标准WER仍然适用；但在其他模式下，LLM指标更能反映真实性能。

Saaras V3示例

文章以Sarvam公司的Saaras V3 API为例，该API支持22种印度语言，提供五种输出模式：转写（标准归一化）、翻译、逐字输出、拉丁转写和代码混合输出。每种模式对应不同的评估指标。例如，转写模式使用LLM-WER/LLM-CER，翻译模式使用意图得分和实体得分，代码混合模式则结合LLM-WER和实体得分。API还提供REST、批量和WebSocket三种交付方式，满足不同场景需求。

六个失败场景

文章详细列举了标准指标失效的六种情况：口语变体、代码混合、短助词惩罚、黏着语后缀替换、音译差异和数字形式变化。每种情况都通过具体语言例子说明，并展示了LLM指标如何纠正误判。例如，在印地语中，助词“नहीं”因回声重复导致WER高达300%，而实际上语义完全正确。

开放源代码框架

文章还介绍了两个开源评估框架：llm_wer 和 llm_intent_entity，可集成到现有流水线中评估任意印度语言ASR系统。作者强调，该分层框架并非最终答案，但比单一指标更接近实际需求，且工具已可用于生产。总体而言，针对印度语言的ASR评估需要多层指标，避免单一指标的偏见，从而更真实地反映系统性能。