ACAT:一种高效的基于方面的情感数据集协作标注平台
本文介绍了ACAT,一个基于网络的协作标注工具,原生支持四种ABS工作流,并提供自动ETL管道直接计算标注者间一致性指标。在1002条餐厅评论上的初步验证显示,中位标注时间为31.58秒,标注者间一致性达0.78-0.86。
ACAT(Aspect-based sentiment analysis Collaborative Annotation Tool)是一个基于网络的协作标注平台,旨在解决基于方面的情感分析(ABSA)数据集构建中的关键瓶颈。在ABSA研究中,高质量标注数据集是训练可靠模型的基础。然而,现有标注工具普遍将输出视为平面文件,导致研究人员必须手动合并多个标注者的数据、重建方面和情感之间的关系结构,并通过自定义脚本计算标注者间一致性(IAA)指标。这一过程不仅耗时,而且容易出错,大大限制了数据集的规模和一致性。
ACAT原生支持四种ABSA工作流:(1)方面类别情感分析(Aspect-Category Sentiment Analysis),用于识别评论文本中提到的方面类别及其情感极性;(2)子句级分割(Clause-Level Segmentation),将文本分割成子句以进行细粒度分析;(3)方面术语情感分析(Aspect-Term Sentiment Analysis),附带字符级位置跟踪,精确定位方面术语及其情感;(4)方面情感三元组抽取(Aspect Sentiment Triplet Extraction),带有双跨度偏移保留,同时抽取方面、观点和情感极性三元组。它的核心创新是一个自动化的ETL(提取、转换、加载)管道,该管道能够在导出时自动对齐多位标注者的协作标注结果,并直接计算IAA指标(如原始一致性、Cohen's Kappa等),生成可直接用于模型训练的数据集,无需任何后处理。
为了验证ACAT的有效性,研究团队在1,002条餐厅评论上进行了初步评估。两名不同专业水平的标注者(一名专家和一名新手)使用ACAT进行标注,中位标注时间仅为31.58秒,所有任务的原始IAA范围在0.78至0.86之间,显示出良好的标注一致性和效率。尤其值得注意的是,即使标注者经验差距较大,ACAT仍能保持较高的一致性。该工具已被第28届国际大数据分析与知识发现会议(DaWak 2026)录用,并已提供开源代码和演示。
ACAT的出现不仅简化了ABSA数据集的构建流程,还为研究人员提供了一个标准化、可复用的协作平台,有望推动情感分析领域的数据集建设和模型评估。其基于Web的界面使得远程协作变得简单,自动化的ETL管道消除了手动整合数据的繁琐工作。未来,ACAT计划扩展支持更多NLP标注任务,并集成主动学习等功能,进一步提升标注效率。