2026-06-29 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-29 16:07 UTC+8

Narrative-UFET：用於超細粒度實體分類的敍事生成

超細粒度實體分類（UFET）在長尾類型上表現不佳，因為現有方法依賴單句上下文。本研究提出Narrative-UFET，為每個實體提及自動生成簡短連貫的敍事，從而提供跨句上下文。實驗表明敍事上下文顯著提升長尾類型分類效果，尤其是當實體類型在敍事中發生變化時。合成敍事優於自然上下文，揭示受控話語構建能挖掘隱含信號。

來源arXiv Computational Linguistics作者: Mreedul Gupta, Advait Deshmukh, Ashwin Umadi, Matt Pauk, Maria Leonor Pacheco

超細粒度實體分類（Ultra-Fine Entity Typing, UFET）旨在為實體提及分配高度具體的類型，例如將“蘋果”分類為“水果”或“科技公司”。然而，當前方法在處理長尾類型時表現不佳，這些類型在訓練數據中罕見，導致模型難以準確識別。研究者認為，其關鍵限制在於依賴單句上下文，因為消歧證據往往分散在多個句子中。例如，判斷一個實體是“演員”還是“導演”可能需要跨句信息。但現有UFET資源均為句子級別，難以驗證這一假設。

為此，該研究提出了Narrative-UFET，一種受控擴展方法。它通過自動生成簡短連貫的敍事，為每個實體提及提供跨句上下文。敍事生成過程允許研究者隔離特定話語屬性的影響，例如實體類型在敍事中是否變化。實驗設計了兩種變體：一是實體類型在敍事中保持不變（Maintain），二是類型發生變化（Change）。例如，對於實體“蘋果”，Maintain變體可能在敍事中始終作為“水果”，而Change變體則可能從“水果”轉變為“公司”。

實驗結果顯示，敍事上下文在長尾類型上持續優於句子級基線，其中Change變體提供的信號更強。這表明類型轉換的敍事能提供更多判別性信息。進一步與自然上下文（如從真實文本中提取的段落）對比，合成敍事帶來更顯著的增益。這意味着受控話語構建能挖掘真實文本中隱含的信號，而真實文本往往因為噪聲和冗餘而掩蓋了這些信號。

儘管取得了進展，但仍有很大改進空間。例如，敍事生成的質量、多樣性和與實體類型的匹配度都可以進一步提升。該工作為話語建模和敍事構建兩個方向開闢了新的研究課題。未來可以探索更復雜的敍事結構，或者將敍事生成與實體類型預測聯合優化。總體而言，Narrative-UFET不僅為UFET提供了新的數據資源，也驗證了跨句上下文對細粒度類型識別的重要性，為後續研究奠定了基礎。