AI News HubLIVE
站內改寫1 分鐘閱讀

Narrative-UFET:用於超細粒度實體分類的敘事生成

超細粒度實體分類(UFET)在長尾型別上表現不佳,因為現有方法依賴單句上下文。本研究提出Narrative-UFET,為每個實體提及自動生成簡短連貫的敘事,從而提供跨句上下文。實驗表明敘事上下文顯著提升長尾型別分類效果,尤其是當實體型別在敘事中發生變化時。合成敘事優於自然上下文,揭示受控話語構建能挖掘隱含訊號。

來源arXiv Computational Linguistics作者: Mreedul Gupta, Advait Deshmukh, Ashwin Umadi, Matt Pauk, Maria Leonor Pacheco

超細粒度實體分類(Ultra-Fine Entity Typing, UFET)旨在為實體提及分配高度具體的型別,例如將“蘋果”分類為“水果”或“科技公司”。然而,當前方法在處理長尾型別時表現不佳,這些型別在訓練資料中罕見,導致模型難以準確識別。研究者認為,其關鍵限制在於依賴單句上下文,因為消歧證據往往分散在多個句子中。例如,判斷一個實體是“演員”還是“導演”可能需要跨句資訊。但現有UFET資源均為句子級別,難以驗證這一假設。

為此,該研究提出了Narrative-UFET,一種受控擴充套件方法。它透過自動生成簡短連貫的敘事,為每個實體提及提供跨句上下文。敘事生成過程允許研究者隔離特定話語屬性的影響,例如實體型別在敘事中是否變化。實驗設計了兩種變體:一是實體型別在敘事中保持不變(Maintain),二是型別發生變化(Change)。例如,對於實體“蘋果”,Maintain變體可能在敘事中始終作為“水果”,而Change變體則可能從“水果”轉變為“公司”。

實驗結果顯示,敘事上下文在長尾型別上持續優於句子級基線,其中Change變體提供的訊號更強。這表明型別轉換的敘事能提供更多判別性資訊。進一步與自然上下文(如從真實文本中提取的段落)對比,合成敘事帶來更顯著的增益。這意味著受控話語構建能挖掘真實文本中隱含的訊號,而真實文本往往因為噪聲和冗餘而掩蓋了這些訊號。

儘管取得了進展,但仍有很大改進空間。例如,敘事生成的質量、多樣性和與實體型別的匹配度都可以進一步提升。該工作為話語建模和敘事構建兩個方向開闢了新的研究課題。未來可以探索更復雜的敘事結構,或者將敘事生成與實體型別預測聯合最佳化。總體而言,Narrative-UFET不僅為UFET提供了新的資料資源,也驗證了跨句上下文對細粒度型別識別的重要性,為後續研究奠定了基礎。