2026-06-01 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

知識圖譜增強的零樣本主題分類：多策略比較研究

本研究提出一個基於知識圖譜的零樣本多標籤主題分類框架，系統比較了八種方法（四種基礎變體及其圖增強版本）在十五個大語言模型和八個數據集上的表現。結果表明，關鍵詞增強分類（AK）是最佳基礎方法；圖增強對小型模型有正面影響，但對大型模型效果不佳，説明大型模型已從預訓練中獲得足夠的關係信息。自一致性解碼未提升性能，但計算成本增加約五倍。

來源arXiv Computational Linguistics作者: Shahana Akter, Yatharth Vohra, Ankita Shukla, Souvika Sarkar

近日，一項由Shahana Akter等人完成的研究在arXiv上發佈，題為《知識圖譜增強的零樣本主題分類：多策略比較研究》。該研究針對零樣本多標籤主題分類這一挑戰性任務，提出了一種融合每篇文檔知識圖譜的框架，並系統評估了多種策略的有效性。

零樣本主題分類旨在無需任何標註訓練數據的情況下，對文檔進行多標籤分類。當文檔包含複雜的實體間關係時，這一任務尤為困難。研究團隊設計了一個基礎框架，包含四種變體：僅基於文章內容分類（article-only）、關鍵詞增強分類（keyword-enhanced, 簡稱AK），以及這兩種方法的自一致性解碼變體。在此基礎上，他們進一步為每種變體添加了基於文章內容自動構建的知識圖譜，該圖譜通過類似KGGen的流水線從輸入文檔中提取主體-謂語-客體三元組，從而形成結構化的關係表示。

為了全面評估，研究人員在15個不同規模的大語言模型（LLM）和8個跨領域多標籤數據集上進行了實驗，對比了4種基礎方法和4種圖增強方法，共計8種配置。實驗涵蓋的模型從較小參數量的模型到大型前沿模型，數據集則覆蓋新聞、科學、商業等多個領域。

結果揭示了一系列重要發現。在基礎方法中，關鍵詞增強分類（AK）表現最為出色，並且在15個LLM中，有6個在零樣本設置下超越了傳統的句子編碼器基線。這一結果表明，即使不經過微調，直接利用LLM的內部分類能力輔以關鍵詞提示也能取得良好效果。然而，知識圖譜增強的效果呈現顯著的模型規模依賴性：對於參數量較小的LLM，圖增強能帶來性能提升；但對於大型LLM，圖增強反而導致性能下降，這暗示大型模型在預訓練過程中已經捕獲了足夠的實體關係信息，額外的知識圖譜信息可能引入噪聲或冗餘。此外，自一致性解碼變體——即對同一輸入進行多次採樣並取多數結果——在所有實驗中都未能提升性能，反而將計算成本提高了約五倍。

這項研究為零樣本分類中知識圖譜的應用提供了寶貴的實證分析。它強調了模型規模在決定外部知識作用時的關鍵角色，並指出對於已經具備強大關係推理能力的大型模型，簡單的提示策略可能比複雜的圖增強更為有效。同時，自一致性解碼的無效性也提醒研究者，在追求模型魯棒性時需要謹慎權衡計算開銷。未來工作可進一步探索如何動態決定是否引入知識圖譜，以及如何設計更高效的解碼策略。