ALEE:基于英语中心化最小对的任意语言嵌入评估框架
ALEE是一个新的评估框架,利用抽象意义表示(AMR)生成英语最小对,并配以目标语言翻译,从而实现对任意语言中文本嵌入模型的细粒度诊断。研究覆盖275多种语言和多个嵌入模型,发现不同语言、文本长度和语言现象间性能差异显著。
文本嵌入是自然语言处理中语义相似度任务的标准技术,广泛应用于信息检索、句子相似度计算和文本聚类等场景。然而,如何准确评估这些嵌入模型的表现仍然是一个开放性问题。现有的评估基准大多是静态的,覆盖的语言种类有限,往往集中于英语或少数高资源语言,且常常局限于特定领域。此外,这些基准容易产生过拟合,对低资源语言的代表性严重不足,导致模型在这些语言上的实际表现难以衡量。为了解决这些缺陷,研究人员提出了ALEE框架,该框架将Sentence Smith(Li等人,2025)拓展到跨语言和段落级别的评估。
ALEE的核心创新在于利用抽象意义表示(Abstract Meaning Representations, AMR)来生成英语的最小对(minimal pairs)。这些最小对具有受控的、细粒度的语义变化,能够精确反映模型的语义理解能力。随后,将这些最小对翻译成目标语言,从而在不需要目标语言标注数据的情况下,实现对该语言文本嵌入模型的诊断。这种方法的核心优势在于,它只需要英语平行数据,就能评估任意语言模型的表现,大大扩展了评估的覆盖范围。
为了验证ALEE的有效性,研究团队在多种嵌入模型和275多种语言上进行了大规模实证研究,实验覆盖了三个平行数据集。结果表明,不同语言、不同文本长度以及不同语言现象下的性能差异非常显著。这些差异揭示了跨语言语义表示中持续存在的差距,而这些差距与训练资源中的语言普及度以及子词分词(subword tokenization)方式密切相关。例如,高资源语言(如英语、中文)的模型表现通常较好,而低资源语言(如某些非洲或土著语言)则表现较差,这直接反映了训练数据的不平衡。
值得一提的是,研究团队已经将ALEE的代码开源,发布在GitHub上(https://github.com/Andrian0s/any-lang-embed-eval),以便社区进一步的研究和改进。这一框架有望成为多语言嵌入评估的新标准,推动更公平、更全面的模型比较和优化。