AI News HubLIVE
站内改写2 分鐘閱讀

ACAT:一種高效的基於方面的情感數據集協作標註平台

本文介紹了ACAT,一個基於網絡的協作標註工具,原生支持四種ABS工作流,並提供自動ETL管道直接計算標註者間一致性指標。在1002條餐廳評論上的初步驗證顯示,中位標註時間為31.58秒,標註者間一致性達0.78-0.86。

來源arXiv Computational Linguistics作者: Ana-Maria Luisa Mocanu, Ciprian-Octavian Truica, Elena-Simona Apostol

ACAT(Aspect-based sentiment analysis Collaborative Annotation Tool)是一個基於網絡的協作標註平台,旨在解決基於方面的情感分析(ABSA)數據集構建中的關鍵瓶頸。在ABSA研究中,高質量標註數據集是訓練可靠模型的基礎。然而,現有標註工具普遍將輸出視為平面文件,導致研究人員必須手動合併多個標註者的數據、重建方面和情感之間的關係結構,並通過自定義腳本計算標註者間一致性(IAA)指標。這一過程不僅耗時,而且容易出錯,大大限制了數據集的規模和一致性。

ACAT原生支持四種ABSA工作流:(1)方面類別情感分析(Aspect-Category Sentiment Analysis),用於識別評論文本中提到的方面類別及其情感極性;(2)子句級分割(Clause-Level Segmentation),將文本分割成子句以進行細粒度分析;(3)方面術語情感分析(Aspect-Term Sentiment Analysis),附帶字符級位置跟蹤,精確定位方面術語及其情感;(4)方面情感三元組抽取(Aspect Sentiment Triplet Extraction),帶有雙跨度偏移保留,同時抽取方面、觀點和情感極性三元組。它的核心創新是一個自動化的ETL(提取、轉換、加載)管道,該管道能夠在導出時自動對齊多位標註者的協作標註結果,並直接計算IAA指標(如原始一致性、Cohen's Kappa等),生成可直接用於模型訓練的數據集,無需任何後處理。

為了驗證ACAT的有效性,研究團隊在1,002條餐廳評論上進行了初步評估。兩名不同專業水平的標註者(一名專家和一名新手)使用ACAT進行標註,中位標註時間僅為31.58秒,所有任務的原始IAA範圍在0.78至0.86之間,顯示出良好的標註一致性和效率。尤其值得注意的是,即使標註者經驗差距較大,ACAT仍能保持較高的一致性。該工具已被第28屆國際大數據分析與知識發現會議(DaWak 2026)錄用,並已提供開源代碼和演示。

ACAT的出現不僅簡化了ABSA數據集的構建流程,還為研究人員提供了一個標準化、可複用的協作平台,有望推動情感分析領域的數據集建設和模型評估。其基於Web的界面使得遠程協作變得簡單,自動化的ETL管道消除了手動整合數據的繁瑣工作。未來,ACAT計劃擴展支持更多NLP標註任務,並集成主動學習等功能,進一步提升標註效率。