2026-07-02 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-02 16:13 UTC+8

ALEE：基於英語中心化最小對的任意語言嵌入評估框架

ALEE是一個新的評估框架，利用抽象意義表示（AMR）生成英語最小對，並配以目標語言翻譯，從而實現對任意語言中文本嵌入模型的細粒度診斷。研究覆蓋275多種語言和多個嵌入模型，發現不同語言、文本長度和語言現象間效能差異顯著。

來源arXiv Computational Linguistics作者: Andrianos Michail, Stylianos Psychias, Michelle Wastl, Simon Clematide, Rico Sennrich, Juri Opitz

文本嵌入是自然語言處理中語義相似度任務的標準技術，廣泛應用於資訊檢索、句子相似度計算和文本聚類等場景。然而，如何準確評估這些嵌入模型的表現仍然是一個開放性問題。現有的評估基準大多是靜態的，覆蓋的語言種類有限，往往集中於英語或少數高資源語言，且常常侷限於特定領域。此外，這些基準容易產生過擬合，對低資源語言的代表性嚴重不足，導致模型在這些語言上的實際表現難以衡量。為了解決這些缺陷，研究人員提出了ALEE框架，該框架將Sentence Smith（Li等人，2025）拓展到跨語言和段落級別的評估。

ALEE的核心創新在於利用抽象意義表示（Abstract Meaning Representations, AMR）來生成英語的最小對（minimal pairs）。這些最小對具有受控的、細粒度的語義變化，能夠精確反映模型的語義理解能力。隨後，將這些最小對翻譯成目標語言，從而在不需要目標語言標註資料的情況下，實現對該語言文本嵌入模型的診斷。這種方法的核心優勢在於，它只需要英語平行資料，就能評估任意語言模型的表現，大大擴充套件了評估的覆蓋範圍。

為了驗證ALEE的有效性，研究團隊在多種嵌入模型和275多種語言上進行了大規模實證研究，實驗覆蓋了三個平行資料集。結果表明，不同語言、不同文本長度以及不同語言現象下的效能差異非常顯著。這些差異揭示了跨語言語義表示中持續存在的差距，而這些差距與訓練資源中的語言普及度以及子詞分詞（subword tokenization）方式密切相關。例如，高資源語言（如英語、中文）的模型表現通常較好，而低資源語言（如某些非洲或土著語言）則表現較差，這直接反映了訓練資料的不平衡。

值得一提的是，研究團隊已經將ALEE的程式碼開源，釋出在GitHub上（https://github.com/Andrian0s/any-lang-embed-eval），以便社群進一步的研究和改進。這一框架有望成為多語言嵌入評估的新標準，推動更公平、更全面的模型比較和最佳化。