AI News HubLIVE
站内改写2 分鐘閱讀

ACAT:一種高效的基於方面的情感資料集協作標註平臺

本文介紹了ACAT,一個基於網路的協作標註工具,原生支援四種ABS工作流,並提供自動ETL管道直接計算標註者間一致性指標。在1002條餐廳評論上的初步驗證顯示,中位標註時間為31.58秒,標註者間一致性達0.78-0.86。

來源arXiv Computational Linguistics作者: Ana-Maria Luisa Mocanu, Ciprian-Octavian Truica, Elena-Simona Apostol

ACAT(Aspect-based sentiment analysis Collaborative Annotation Tool)是一個基於網路的協作標註平臺,旨在解決基於方面的情感分析(ABSA)資料集構建中的關鍵瓶頸。在ABSA研究中,高質量標註資料集是訓練可靠模型的基礎。然而,現有標註工具普遍將輸出視為平面檔案,導致研究人員必須手動合併多個標註者的資料、重建方面和情感之間的關係結構,並透過自定義指令碼計算標註者間一致性(IAA)指標。這一過程不僅耗時,而且容易出錯,大大限制了資料集的規模和一致性。

ACAT原生支援四種ABSA工作流:(1)方面類別情感分析(Aspect-Category Sentiment Analysis),用於識別評論文本中提到的方面類別及其情感極性;(2)子句級分割(Clause-Level Segmentation),將文本分割成子句以進行細粒度分析;(3)方面術語情感分析(Aspect-Term Sentiment Analysis),附帶字元級位置跟蹤,精確定位方面術語及其情感;(4)方面情感三元組抽取(Aspect Sentiment Triplet Extraction),帶有雙跨度偏移保留,同時抽取方面、觀點和情感極性三元組。它的核心創新是一個自動化的ETL(提取、轉換、載入)管道,該管道能夠在匯出時自動對齊多位標註者的協作標註結果,並直接計算IAA指標(如原始一致性、Cohen's Kappa等),生成可直接用於模型訓練的資料集,無需任何後處理。

為了驗證ACAT的有效性,研究團隊在1,002條餐廳評論上進行了初步評估。兩名不同專業水平的標註者(一名專家和一名新手)使用ACAT進行標註,中位標註時間僅為31.58秒,所有任務的原始IAA範圍在0.78至0.86之間,顯示出良好的標註一致性和效率。尤其值得注意的是,即使標註者經驗差距較大,ACAT仍能保持較高的一致性。該工具已被第28屆國際大數據分析與知識發現會議(DaWak 2026)錄用,並已提供開原始碼和演示。

ACAT的出現不僅簡化了ABSA資料集的構建流程,還為研究人員提供了一個標準化、可複用的協作平臺,有望推動情感分析領域的資料集建設和模型評估。其基於Web的介面使得遠端協作變得簡單,自動化的ETL管道消除了手動整合資料的繁瑣工作。未來,ACAT計劃擴充套件支援更多NLP標註任務,並整合主動學習等功能,進一步提升標註效率。