ALEE:基於英語中心化最小對的任意語言嵌入評估框架
ALEE是一個新的評估框架,利用抽象意義表示(AMR)生成英語最小對,並配以目標語言翻譯,從而實現對任意語言中文本嵌入模型的細粒度診斷。研究覆蓋275多種語言和多個嵌入模型,發現不同語言、文本長度和語言現象間效能差異顯著。
文本嵌入是自然語言處理中語義相似度任務的標準技術,廣泛應用於資訊檢索、句子相似度計算和文本聚類等場景。然而,如何準確評估這些嵌入模型的表現仍然是一個開放性問題。現有的評估基準大多是靜態的,覆蓋的語言種類有限,往往集中於英語或少數高資源語言,且常常侷限於特定領域。此外,這些基準容易產生過擬合,對低資源語言的代表性嚴重不足,導致模型在這些語言上的實際表現難以衡量。為了解決這些缺陷,研究人員提出了ALEE框架,該框架將Sentence Smith(Li等人,2025)拓展到跨語言和段落級別的評估。
ALEE的核心創新在於利用抽象意義表示(Abstract Meaning Representations, AMR)來生成英語的最小對(minimal pairs)。這些最小對具有受控的、細粒度的語義變化,能夠精確反映模型的語義理解能力。隨後,將這些最小對翻譯成目標語言,從而在不需要目標語言標註資料的情況下,實現對該語言文本嵌入模型的診斷。這種方法的核心優勢在於,它只需要英語平行資料,就能評估任意語言模型的表現,大大擴充套件了評估的覆蓋範圍。
為了驗證ALEE的有效性,研究團隊在多種嵌入模型和275多種語言上進行了大規模實證研究,實驗覆蓋了三個平行資料集。結果表明,不同語言、不同文本長度以及不同語言現象下的效能差異非常顯著。這些差異揭示了跨語言語義表示中持續存在的差距,而這些差距與訓練資源中的語言普及度以及子詞分詞(subword tokenization)方式密切相關。例如,高資源語言(如英語、中文)的模型表現通常較好,而低資源語言(如某些非洲或土著語言)則表現較差,這直接反映了訓練資料的不平衡。
值得一提的是,研究團隊已經將ALEE的程式碼開源,釋出在GitHub上(https://github.com/Andrian0s/any-lang-embed-eval),以便社群進一步的研究和改進。這一框架有望成為多語言嵌入評估的新標準,推動更公平、更全面的模型比較和最佳化。