2026-06-29 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-29 16:07 UTC+8

Narrative-UFET：用於超細粒度實體分類的敘事生成

超細粒度實體分類（UFET）在長尾型別上表現不佳，因為現有方法依賴單句上下文。本研究提出Narrative-UFET，為每個實體提及自動生成簡短連貫的敘事，從而提供跨句上下文。實驗表明敘事上下文顯著提升長尾型別分類效果，尤其是當實體型別在敘事中發生變化時。合成敘事優於自然上下文，揭示受控話語構建能挖掘隱含訊號。

來源arXiv Computational Linguistics作者: Mreedul Gupta, Advait Deshmukh, Ashwin Umadi, Matt Pauk, Maria Leonor Pacheco

超細粒度實體分類（Ultra-Fine Entity Typing, UFET）旨在為實體提及分配高度具體的型別，例如將“蘋果”分類為“水果”或“科技公司”。然而，當前方法在處理長尾型別時表現不佳，這些型別在訓練資料中罕見，導致模型難以準確識別。研究者認為，其關鍵限制在於依賴單句上下文，因為消歧證據往往分散在多個句子中。例如，判斷一個實體是“演員”還是“導演”可能需要跨句資訊。但現有UFET資源均為句子級別，難以驗證這一假設。

為此，該研究提出了Narrative-UFET，一種受控擴充套件方法。它透過自動生成簡短連貫的敘事，為每個實體提及提供跨句上下文。敘事生成過程允許研究者隔離特定話語屬性的影響，例如實體型別在敘事中是否變化。實驗設計了兩種變體：一是實體型別在敘事中保持不變（Maintain），二是型別發生變化（Change）。例如，對於實體“蘋果”，Maintain變體可能在敘事中始終作為“水果”，而Change變體則可能從“水果”轉變為“公司”。

實驗結果顯示，敘事上下文在長尾型別上持續優於句子級基線，其中Change變體提供的訊號更強。這表明型別轉換的敘事能提供更多判別性資訊。進一步與自然上下文（如從真實文本中提取的段落）對比，合成敘事帶來更顯著的增益。這意味著受控話語構建能挖掘真實文本中隱含的訊號，而真實文本往往因為噪聲和冗餘而掩蓋了這些訊號。

儘管取得了進展，但仍有很大改進空間。例如，敘事生成的質量、多樣性和與實體型別的匹配度都可以進一步提升。該工作為話語建模和敘事構建兩個方向開闢了新的研究課題。未來可以探索更復雜的敘事結構，或者將敘事生成與實體型別預測聯合最佳化。總體而言，Narrative-UFET不僅為UFET提供了新的資料資源，也驗證了跨句上下文對細粒度型別識別的重要性，為後續研究奠定了基礎。