2026-06-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-29 16:07 UTC+8

Narrative-UFET：用于超细粒度实体分类的叙事生成

超细粒度实体分类（UFET）在长尾类型上表现不佳，因为现有方法依赖单句上下文。本研究提出Narrative-UFET，为每个实体提及自动生成简短连贯的叙事，从而提供跨句上下文。实验表明叙事上下文显著提升长尾类型分类效果，尤其是当实体类型在叙事中发生变化时。合成叙事优于自然上下文，揭示受控话语构建能挖掘隐含信号。

来源arXiv Computational Linguistics作者: Mreedul Gupta, Advait Deshmukh, Ashwin Umadi, Matt Pauk, Maria Leonor Pacheco

超细粒度实体分类（Ultra-Fine Entity Typing, UFET）旨在为实体提及分配高度具体的类型，例如将“苹果”分类为“水果”或“科技公司”。然而，当前方法在处理长尾类型时表现不佳，这些类型在训练数据中罕见，导致模型难以准确识别。研究者认为，其关键限制在于依赖单句上下文，因为消歧证据往往分散在多个句子中。例如，判断一个实体是“演员”还是“导演”可能需要跨句信息。但现有UFET资源均为句子级别，难以验证这一假设。

为此，该研究提出了Narrative-UFET，一种受控扩展方法。它通过自动生成简短连贯的叙事，为每个实体提及提供跨句上下文。叙事生成过程允许研究者隔离特定话语属性的影响，例如实体类型在叙事中是否变化。实验设计了两种变体：一是实体类型在叙事中保持不变（Maintain），二是类型发生变化（Change）。例如，对于实体“苹果”，Maintain变体可能在叙事中始终作为“水果”，而Change变体则可能从“水果”转变为“公司”。

实验结果显示，叙事上下文在长尾类型上持续优于句子级基线，其中Change变体提供的信号更强。这表明类型转换的叙事能提供更多判别性信息。进一步与自然上下文（如从真实文本中提取的段落）对比，合成叙事带来更显著的增益。这意味着受控话语构建能挖掘真实文本中隐含的信号，而真实文本往往因为噪声和冗余而掩盖了这些信号。

尽管取得了进展，但仍有很大改进空间。例如，叙事生成的质量、多样性和与实体类型的匹配度都可以进一步提升。该工作为话语建模和叙事构建两个方向开辟了新的研究课题。未来可以探索更复杂的叙事结构，或者将叙事生成与实体类型预测联合优化。总体而言，Narrative-UFET不仅为UFET提供了新的数据资源，也验证了跨句上下文对细粒度类型识别的重要性，为后续研究奠定了基础。