2026-07-02 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-02 16:13 UTC+8

ALEE：基于英语中心化最小对的任意语言嵌入评估框架

ALEE是一个新的评估框架，利用抽象意义表示（AMR）生成英语最小对，并配以目标语言翻译，从而实现对任意语言中文本嵌入模型的细粒度诊断。研究覆盖275多种语言和多个嵌入模型，发现不同语言、文本长度和语言现象间性能差异显著。

来源arXiv Computational Linguistics作者: Andrianos Michail, Stylianos Psychias, Michelle Wastl, Simon Clematide, Rico Sennrich, Juri Opitz

文本嵌入是自然语言处理中语义相似度任务的标准技术，广泛应用于信息检索、句子相似度计算和文本聚类等场景。然而，如何准确评估这些嵌入模型的表现仍然是一个开放性问题。现有的评估基准大多是静态的，覆盖的语言种类有限，往往集中于英语或少数高资源语言，且常常局限于特定领域。此外，这些基准容易产生过拟合，对低资源语言的代表性严重不足，导致模型在这些语言上的实际表现难以衡量。为了解决这些缺陷，研究人员提出了ALEE框架，该框架将Sentence Smith（Li等人，2025）拓展到跨语言和段落级别的评估。

ALEE的核心创新在于利用抽象意义表示（Abstract Meaning Representations, AMR）来生成英语的最小对（minimal pairs）。这些最小对具有受控的、细粒度的语义变化，能够精确反映模型的语义理解能力。随后，将这些最小对翻译成目标语言，从而在不需要目标语言标注数据的情况下，实现对该语言文本嵌入模型的诊断。这种方法的核心优势在于，它只需要英语平行数据，就能评估任意语言模型的表现，大大扩展了评估的覆盖范围。

为了验证ALEE的有效性，研究团队在多种嵌入模型和275多种语言上进行了大规模实证研究，实验覆盖了三个平行数据集。结果表明，不同语言、不同文本长度以及不同语言现象下的性能差异非常显著。这些差异揭示了跨语言语义表示中持续存在的差距，而这些差距与训练资源中的语言普及度以及子词分词（subword tokenization）方式密切相关。例如，高资源语言（如英语、中文）的模型表现通常较好，而低资源语言（如某些非洲或土著语言）则表现较差，这直接反映了训练数据的不平衡。

值得一提的是，研究团队已经将ALEE的代码开源，发布在GitHub上（https://github.com/Andrian0s/any-lang-embed-eval），以便社区进一步的研究和改进。这一框架有望成为多语言嵌入评估的新标准，推动更公平、更全面的模型比较和优化。