2026-06-04 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

ACAT：一種高效的基於方面的情感數據集協作標註平台

本文介紹了ACAT，一個基於網絡的協作標註工具，原生支持四種ABS工作流，並提供自動ETL管道直接計算標註者間一致性指標。在1002條餐廳評論上的初步驗證顯示，中位標註時間為31.58秒，標註者間一致性達0.78-0.86。

來源arXiv Computational Linguistics作者: Ana-Maria Luisa Mocanu, Ciprian-Octavian Truica, Elena-Simona Apostol

ACAT（Aspect-based sentiment analysis Collaborative Annotation Tool）是一個基於網絡的協作標註平台，旨在解決基於方面的情感分析（ABSA）數據集構建中的關鍵瓶頸。在ABSA研究中，高質量標註數據集是訓練可靠模型的基礎。然而，現有標註工具普遍將輸出視為平面文件，導致研究人員必須手動合併多個標註者的數據、重建方面和情感之間的關係結構，並通過自定義腳本計算標註者間一致性（IAA）指標。這一過程不僅耗時，而且容易出錯，大大限制了數據集的規模和一致性。

ACAT原生支持四種ABSA工作流：（1）方面類別情感分析（Aspect-Category Sentiment Analysis），用於識別評論文本中提到的方面類別及其情感極性；（2）子句級分割（Clause-Level Segmentation），將文本分割成子句以進行細粒度分析；（3）方面術語情感分析（Aspect-Term Sentiment Analysis），附帶字符級位置跟蹤，精確定位方面術語及其情感；（4）方面情感三元組抽取（Aspect Sentiment Triplet Extraction），帶有雙跨度偏移保留，同時抽取方面、觀點和情感極性三元組。它的核心創新是一個自動化的ETL（提取、轉換、加載）管道，該管道能夠在導出時自動對齊多位標註者的協作標註結果，並直接計算IAA指標（如原始一致性、Cohen's Kappa等），生成可直接用於模型訓練的數據集，無需任何後處理。

為了驗證ACAT的有效性，研究團隊在1,002條餐廳評論上進行了初步評估。兩名不同專業水平的標註者（一名專家和一名新手）使用ACAT進行標註，中位標註時間僅為31.58秒，所有任務的原始IAA範圍在0.78至0.86之間，顯示出良好的標註一致性和效率。尤其值得注意的是，即使標註者經驗差距較大，ACAT仍能保持較高的一致性。該工具已被第28屆國際大數據分析與知識發現會議（DaWak 2026）錄用，並已提供開源代碼和演示。

ACAT的出現不僅簡化了ABSA數據集的構建流程，還為研究人員提供了一個標準化、可複用的協作平台，有望推動情感分析領域的數據集建設和模型評估。其基於Web的界面使得遠程協作變得簡單，自動化的ETL管道消除了手動整合數據的繁瑣工作。未來，ACAT計劃擴展支持更多NLP標註任務，並集成主動學習等功能，進一步提升標註效率。