2026-06-30 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 16:08 UTC+8

利用信息抽取从阿拉伯语-英语机器可读词典中提取知识

本文提出了一种从阿拉伯语-英语Al-Mawrid词典的机器可读版本中自动提取词汇信息的方法。该方法结合n-gram分析和关键词索引（KWIC）分析发现形态、句法或语义模式，并通过手工规则进行信息抽取。实验表明，该方法在所有信息类型上精度高，同义词召回率高，其他信息召回率低。研究发现Al-Mawrid词典含有大量派生词、同义词、领域标签和上下位关系。

来源arXiv Computational Linguistics作者: Diaa M. Fayed, Aly A. Fahmy, Mohsen A. Rashwan, Wafaa K. Fayed

自然语言处理（NLP）应用需要大量丰富的语言知识。随着电子语言资源（如词典、百科全书和语料库）的普及，自动方法应运而生，以从这些资源中提取词汇信息，克服知识获取瓶颈。本文提出了一种从阿拉伯语-英语Al-Mawrid词典的机器可读版本中自动提取词汇信息的方法。

研究人员首先使用n-gram分析和关键词索引（KWIC）分析来发现体现形态、句法或语义信息的词汇模式。这些模式能够揭示词汇的形态变化、句法结构或语义关系。随后，他们采用手工编写的基于规则的信息抽取技术来提取这些信息。此外，还利用标点符号和启发式方法从子词条中提取同义词集。例如，通过识别括号、逗号等标点，以及一些常见的同义词标记，能够有效地将同义词组提取出来。

实验结果显示，该方法在所有信息类型上均取得了高精度，特别是在同义词提取方面获得了高召回率。然而，对于其他信息类型（如派生词、领域标签和上下位关系），召回率较低。这表明，虽然规则方法在特定任务上表现良好，但可能无法覆盖所有语言现象。研究还表明，Al-Mawrid词典包含大量派生词（形态信息）、同义词、领域标签以及上下位关系（语义信息）。这些发现对于构建阿拉伯语语言资源具有重要意义。

该论文发表于CITALA 2014会议，共9页，包含7张图和4张表格。论文由Diaa M. Fayed等人撰写，目前以arXiv预印本形式发布（编号2606.28457）。尽管原始会议网站已无法访问，但该工作为从双语词典自动获取词汇知识提供了有效的思路和方法。