Narrative-UFET:用於超細粒度實體分類的敍事生成
超細粒度實體分類(UFET)在長尾類型上表現不佳,因為現有方法依賴單句上下文。本研究提出Narrative-UFET,為每個實體提及自動生成簡短連貫的敍事,從而提供跨句上下文。實驗表明敍事上下文顯著提升長尾類型分類效果,尤其是當實體類型在敍事中發生變化時。合成敍事優於自然上下文,揭示受控話語構建能挖掘隱含信號。
超細粒度實體分類(Ultra-Fine Entity Typing, UFET)旨在為實體提及分配高度具體的類型,例如將“蘋果”分類為“水果”或“科技公司”。然而,當前方法在處理長尾類型時表現不佳,這些類型在訓練數據中罕見,導致模型難以準確識別。研究者認為,其關鍵限制在於依賴單句上下文,因為消歧證據往往分散在多個句子中。例如,判斷一個實體是“演員”還是“導演”可能需要跨句信息。但現有UFET資源均為句子級別,難以驗證這一假設。
為此,該研究提出了Narrative-UFET,一種受控擴展方法。它通過自動生成簡短連貫的敍事,為每個實體提及提供跨句上下文。敍事生成過程允許研究者隔離特定話語屬性的影響,例如實體類型在敍事中是否變化。實驗設計了兩種變體:一是實體類型在敍事中保持不變(Maintain),二是類型發生變化(Change)。例如,對於實體“蘋果”,Maintain變體可能在敍事中始終作為“水果”,而Change變體則可能從“水果”轉變為“公司”。
實驗結果顯示,敍事上下文在長尾類型上持續優於句子級基線,其中Change變體提供的信號更強。這表明類型轉換的敍事能提供更多判別性信息。進一步與自然上下文(如從真實文本中提取的段落)對比,合成敍事帶來更顯著的增益。這意味着受控話語構建能挖掘真實文本中隱含的信號,而真實文本往往因為噪聲和冗餘而掩蓋了這些信號。
儘管取得了進展,但仍有很大改進空間。例如,敍事生成的質量、多樣性和與實體類型的匹配度都可以進一步提升。該工作為話語建模和敍事構建兩個方向開闢了新的研究課題。未來可以探索更復雜的敍事結構,或者將敍事生成與實體類型預測聯合優化。總體而言,Narrative-UFET不僅為UFET提供了新的數據資源,也驗證了跨句上下文對細粒度類型識別的重要性,為後續研究奠定了基礎。