IdiomX:多語言習語理解、檢索與解釋基準
IdiomX是一個大規模多語言習語基準,包含超過19萬條上下文示例,涵蓋1.2萬多種習語,支援英語、阿拉伯語和法語。它定義了四項任務:習語檢測、上下文到習語檢索、阿拉伯語到英語習語檢索及習語解釋。實驗表明,Transformer模型提升了檢測效能,混合檢索架構增強了跨語言檢索。
習語表達因其非組合性和上下文依賴性,長期以來一直是自然語言處理(NLP)領域的一個棘手難題。現有習語資源在規模、上下文多樣性和多語言覆蓋方面存在明顯侷限,無法滿足現代語言模型的需求。為了填補這一空白,研究團隊開發了IdiomX——一個大規模、多語言的習語理解、檢索與解釋基準資料集。該資料集透過可復現的多階段流水線構建而成,涵蓋詞彙資源提取、大規模規範化、受控大語言模型(LLM)增強以及結構化驗證等步驟。最終,IdiomX包含了超過19萬條上下文示例,覆蓋1.2萬多種習語,並提供英語、阿拉伯語和法語三種語言的對齊語義表示。每條示例都標註了習語用法(習語性或字面性)以及豐富的語言後設資料,為模型的訓練和評估提供了堅實基礎。
基於這一資源,研究者統一定義了四項評估任務:習語檢測、上下文到習語檢索、阿拉伯語到英語習語檢索以及習語解釋。這四項任務將評估範圍從簡單的比喻識別擴充套件至語義基礎理解和可解釋的意義檢索,使得模型的習語處理能力得到全面考量。實驗結果顯示,基於上下文的Transformer模型在習語檢測任務上取得了顯著提升,而混合檢索與重排序架構則有效地加強了單語和跨語言習語檢索的效能。此外,研究還發現,習語解釋可以被有效地建模為語義檢索任務,從而為基準評估引入了可解釋性這一新的維度。
IdiomX的釋出為習語研究提供了一個可擴充套件的基準框架,便於未來擴充套件到更多語言和比喻推理任務。所有資料集和程式碼已公開發布在HuggingFace、Kaggle和GitHub等平臺上,供研究人員和開發者使用。