AI News HubLIVE
站内改写1 分钟阅读

Narrative-UFET:用于超细粒度实体分类的叙事生成

超细粒度实体分类(UFET)在长尾类型上表现不佳,因为现有方法依赖单句上下文。本研究提出Narrative-UFET,为每个实体提及自动生成简短连贯的叙事,从而提供跨句上下文。实验表明叙事上下文显著提升长尾类型分类效果,尤其是当实体类型在叙事中发生变化时。合成叙事优于自然上下文,揭示受控话语构建能挖掘隐含信号。

来源arXiv Computational Linguistics作者: Mreedul Gupta, Advait Deshmukh, Ashwin Umadi, Matt Pauk, Maria Leonor Pacheco

超细粒度实体分类(Ultra-Fine Entity Typing, UFET)旨在为实体提及分配高度具体的类型,例如将“苹果”分类为“水果”或“科技公司”。然而,当前方法在处理长尾类型时表现不佳,这些类型在训练数据中罕见,导致模型难以准确识别。研究者认为,其关键限制在于依赖单句上下文,因为消歧证据往往分散在多个句子中。例如,判断一个实体是“演员”还是“导演”可能需要跨句信息。但现有UFET资源均为句子级别,难以验证这一假设。

为此,该研究提出了Narrative-UFET,一种受控扩展方法。它通过自动生成简短连贯的叙事,为每个实体提及提供跨句上下文。叙事生成过程允许研究者隔离特定话语属性的影响,例如实体类型在叙事中是否变化。实验设计了两种变体:一是实体类型在叙事中保持不变(Maintain),二是类型发生变化(Change)。例如,对于实体“苹果”,Maintain变体可能在叙事中始终作为“水果”,而Change变体则可能从“水果”转变为“公司”。

实验结果显示,叙事上下文在长尾类型上持续优于句子级基线,其中Change变体提供的信号更强。这表明类型转换的叙事能提供更多判别性信息。进一步与自然上下文(如从真实文本中提取的段落)对比,合成叙事带来更显著的增益。这意味着受控话语构建能挖掘真实文本中隐含的信号,而真实文本往往因为噪声和冗余而掩盖了这些信号。

尽管取得了进展,但仍有很大改进空间。例如,叙事生成的质量、多样性和与实体类型的匹配度都可以进一步提升。该工作为话语建模和叙事构建两个方向开辟了新的研究课题。未来可以探索更复杂的叙事结构,或者将叙事生成与实体类型预测联合优化。总体而言,Narrative-UFET不仅为UFET提供了新的数据资源,也验证了跨句上下文对细粒度类型识别的重要性,为后续研究奠定了基础。