IdiomX:多语言习语理解、检索与解释基准
IdiomX是一个大规模多语言习语基准,包含超过19万条上下文示例,涵盖1.2万多种习语,支持英语、阿拉伯语和法语。它定义了四项任务:习语检测、上下文到习语检索、阿拉伯语到英语习语检索及习语解释。实验表明,Transformer模型提升了检测性能,混合检索架构增强了跨语言检索。
习语表达因其非组合性和上下文依赖性,长期以来一直是自然语言处理(NLP)领域的一个棘手难题。现有习语资源在规模、上下文多样性和多语言覆盖方面存在明显局限,无法满足现代语言模型的需求。为了填补这一空白,研究团队开发了IdiomX——一个大规模、多语言的习语理解、检索与解释基准数据集。该数据集通过可复现的多阶段流水线构建而成,涵盖词汇资源提取、大规模规范化、受控大语言模型(LLM)增强以及结构化验证等步骤。最终,IdiomX包含了超过19万条上下文示例,覆盖1.2万多种习语,并提供英语、阿拉伯语和法语三种语言的对齐语义表示。每条示例都标注了习语用法(习语性或字面性)以及丰富的语言元数据,为模型的训练和评估提供了坚实基础。
基于这一资源,研究者统一定义了四项评估任务:习语检测、上下文到习语检索、阿拉伯语到英语习语检索以及习语解释。这四项任务将评估范围从简单的比喻识别扩展至语义基础理解和可解释的意义检索,使得模型的习语处理能力得到全面考量。实验结果显示,基于上下文的Transformer模型在习语检测任务上取得了显著提升,而混合检索与重排序架构则有效地加强了单语和跨语言习语检索的性能。此外,研究还发现,习语解释可以被有效地建模为语义检索任务,从而为基准评估引入了可解释性这一新的维度。
IdiomX的发布为习语研究提供了一个可扩展的基准框架,便于未来扩展到更多语言和比喻推理任务。所有数据集和代码已公开发布在HuggingFace、Kaggle和GitHub等平台上,供研究人员和开发者使用。