我们如何教会AI智能体修复训练数据 | Unstructured
Unstructured发现,合并高质量但标注风格不一致的数据集反而降低了模型性能。他们构建了一个基于VLM的智能体标签统一流水线,在训练前协调标注差异,最终在14项指标上取得提升。
在AI模型训练中,许多人直观地认为更多数据意味着更好的模型。Unstructured团队的实践经验却揭示了一个反直觉的现象:当他们合并两个高质量文档数据集以改进布局检测模型时,模型在所有监控指标上的表现反而下降了。检测质量下滑,表格结构变差,阅读顺序回归。数据量增加了,模型却变得更糟。
这一发现促使他们深入研究,最终发表了一篇关于标注不一致性的论文。标注不一致是指在表面上兼容的数据集之间,对同一元素的标注方式存在细微但关键的差异。例如,对于“段落”这一类别,一个数据集可能使用紧贴文本的紧密边界框,而另一个数据集则绘制包含周围空白区域的粗框。相同的标签名称,却承载着完全不同的空间含义。这种差异同样出现在标题、表格、表单、标题和列表结构中。当模型接收来自不同数据集的训练数据时,它同时学习到互相矛盾的定义,无法自行解决分歧,只是将两者都当作真实标注吸收,从而陷入混乱。
为了解决这一问题,Unstructured的工程师构建了一个“智能体标签统一”工作流。在训练开始之前,一个视觉语言模型(VLM)智能体被用来处理每个文档页面及其现有标注。该智能体检查实际视觉布局,然后将所有标注协调为单一一致的标准。它可以合并属于同一区域的标注,调整错位的边界,或在必要时重新分配类别。但它不能凭空创建新区域或丢弃现有区域。这一过程确保训练集中的所有标注都使用相同的“语言”,无论它们来自哪个原始数据集。
团队在SCORE-Bench基准测试上评估了三种模型:基础模型、直接在混合数据集上微调的模型,以及经过标注统一后微调的模型。结果清楚显示:统一后的模型在17项指标中的14项上领先。更值得注意的是,直接在混合数据集上简单微调的模型甚至比原始基线更差,这表明不加修复地增加数据主动损害了模型性能。具体数值方面,表格TEDS从0.800提升至0.814,检测F分数从0.860提升至0.883,平均边界框重叠率从0.043降至0.016(降低2.6倍)。所有这些改进都来自于更干净的监督信号,模型架构、计算资源和训练策略均未改变。模型嵌入空间的可视化也验证了统一后类别分离更加清晰,而简单微调则导致簇更加混乱、类别互相渗透。
标注不一致并非文档AI领域特有的问题。任何组合独立策划数据源进行微调的研究者或工程师都可能面临类似挑战。认为兼容的标签名称就意味着兼容的监督几乎总是错误的,只是程度不同。监督一致性是一个在训练开始前就值得认真对待的关键变量。模型学到的质量不仅取决于数据量,还取决于数据定义任务的方式是否一致。Unstructured的经验表明,花时间确保数据一致性通常比简单地增加数据量更能提升模型性能。