2026-06-04 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

ACAT：一种高效的基于方面的情感数据集协作标注平台

本文介绍了ACAT，一个基于网络的协作标注工具，原生支持四种ABS工作流，并提供自动ETL管道直接计算标注者间一致性指标。在1002条餐厅评论上的初步验证显示，中位标注时间为31.58秒，标注者间一致性达0.78-0.86。

来源arXiv Computational Linguistics作者: Ana-Maria Luisa Mocanu, Ciprian-Octavian Truica, Elena-Simona Apostol

ACAT（Aspect-based sentiment analysis Collaborative Annotation Tool）是一个基于网络的协作标注平台，旨在解决基于方面的情感分析（ABSA）数据集构建中的关键瓶颈。在ABSA研究中，高质量标注数据集是训练可靠模型的基础。然而，现有标注工具普遍将输出视为平面文件，导致研究人员必须手动合并多个标注者的数据、重建方面和情感之间的关系结构，并通过自定义脚本计算标注者间一致性（IAA）指标。这一过程不仅耗时，而且容易出错，大大限制了数据集的规模和一致性。

ACAT原生支持四种ABSA工作流：（1）方面类别情感分析（Aspect-Category Sentiment Analysis），用于识别评论文本中提到的方面类别及其情感极性；（2）子句级分割（Clause-Level Segmentation），将文本分割成子句以进行细粒度分析；（3）方面术语情感分析（Aspect-Term Sentiment Analysis），附带字符级位置跟踪，精确定位方面术语及其情感；（4）方面情感三元组抽取（Aspect Sentiment Triplet Extraction），带有双跨度偏移保留，同时抽取方面、观点和情感极性三元组。它的核心创新是一个自动化的ETL（提取、转换、加载）管道，该管道能够在导出时自动对齐多位标注者的协作标注结果，并直接计算IAA指标（如原始一致性、Cohen's Kappa等），生成可直接用于模型训练的数据集，无需任何后处理。

为了验证ACAT的有效性，研究团队在1,002条餐厅评论上进行了初步评估。两名不同专业水平的标注者（一名专家和一名新手）使用ACAT进行标注，中位标注时间仅为31.58秒，所有任务的原始IAA范围在0.78至0.86之间，显示出良好的标注一致性和效率。尤其值得注意的是，即使标注者经验差距较大，ACAT仍能保持较高的一致性。该工具已被第28届国际大数据分析与知识发现会议（DaWak 2026）录用，并已提供开源代码和演示。

ACAT的出现不仅简化了ABSA数据集的构建流程，还为研究人员提供了一个标准化、可复用的协作平台，有望推动情感分析领域的数据集建设和模型评估。其基于Web的界面使得远程协作变得简单，自动化的ETL管道消除了手动整合数据的繁琐工作。未来，ACAT计划扩展支持更多NLP标注任务，并集成主动学习等功能，进一步提升标注效率。