AI News HubLIVE
站内改写1 分钟阅读

利用信息抽取从阿拉伯语-英语机器可读词典中提取知识

本文提出了一种从阿拉伯语-英语Al-Mawrid词典的机器可读版本中自动提取词汇信息的方法。该方法结合n-gram分析和关键词索引(KWIC)分析发现形态、句法或语义模式,并通过手工规则进行信息抽取。实验表明,该方法在所有信息类型上精度高,同义词召回率高,其他信息召回率低。研究发现Al-Mawrid词典含有大量派生词、同义词、领域标签和上下位关系。

来源arXiv Computational Linguistics作者: Diaa M. Fayed, Aly A. Fahmy, Mohsen A. Rashwan, Wafaa K. Fayed

自然语言处理(NLP)应用需要大量丰富的语言知识。随着电子语言资源(如词典、百科全书和语料库)的普及,自动方法应运而生,以从这些资源中提取词汇信息,克服知识获取瓶颈。本文提出了一种从阿拉伯语-英语Al-Mawrid词典的机器可读版本中自动提取词汇信息的方法。

研究人员首先使用n-gram分析和关键词索引(KWIC)分析来发现体现形态、句法或语义信息的词汇模式。这些模式能够揭示词汇的形态变化、句法结构或语义关系。随后,他们采用手工编写的基于规则的信息抽取技术来提取这些信息。此外,还利用标点符号和启发式方法从子词条中提取同义词集。例如,通过识别括号、逗号等标点,以及一些常见的同义词标记,能够有效地将同义词组提取出来。

实验结果显示,该方法在所有信息类型上均取得了高精度,特别是在同义词提取方面获得了高召回率。然而,对于其他信息类型(如派生词、领域标签和上下位关系),召回率较低。这表明,虽然规则方法在特定任务上表现良好,但可能无法覆盖所有语言现象。研究还表明,Al-Mawrid词典包含大量派生词(形态信息)、同义词、领域标签以及上下位关系(语义信息)。这些发现对于构建阿拉伯语语言资源具有重要意义。

该论文发表于CITALA 2014会议,共9页,包含7张图和4张表格。论文由Diaa M. Fayed等人撰写,目前以arXiv预印本形式发布(编号2606.28457)。尽管原始会议网站已无法访问,但该工作为从双语词典自动获取词汇知识提供了有效的思路和方法。