通用智能体能否自动化数据筛选?
新基准Curation-Bench测试通用编码智能体能否自主筛选训练数据。现成智能体在十次迭代内达到强基线水平,但倾向于调整局部策略而非探索新策略族。要求每次迭代引用并改编先前方法的脚手架智能体,自主发现了一种以十分之一数据预算超越基线的策略,表明结构化方法适应是关键。
在人工智能领域,训练数据的筛选是至关重要但又极为耗时的工作。研究人员通常需要反复提出、实现、评估和修订数据筛选策略,并依据有噪声的基准反馈进行迭代。针对这一痛点,一项新研究提出了Curation-Bench基准,旨在测试通用编码智能体能否自动化这一数据筛选循环。
Curation-Bench是一个以智能体为中心的基准测试,它固定了模型、训练方法和评估套件,同时赋予智能体命令行权限来检查数据、实现策略、提交到固定的训练/评估流水线并进行修订。在视觉语言指令微调的实例中,现成的智能体能够在十次迭代内达到已发布的强数据选择基线。然而,进一步的分析揭示了智能体存在一个持续的"执行-研究差距":它们主要调整局部策略变体,而非探索全新的策略族,即使提供了策略指南和论文参考也依然如此。
为了弥合这一差距,研究人员设计了脚手架(scaffold)机制,要求每次迭代必须引用、实例化并改编先前的方法。这种脚手架引导的智能体显著改变了探索行为,从局部调优转向方法引导的探索。令人瞩目的是,脚手架智能体在没有人类设计输入的情况下,自主组合出一种数据选择策略,该策略以十分之一的数据预算超越了强基线。这表明,当前的智能体确实能够运行数据筛选循环,但可靠的数据研究需要结构化的方法适应,而非仅靠开放式提示。
研究的代码和基准已在GitHub上开源,为未来自动化数据筛选的研究提供了重要工具。论文作者认为,虽然通用智能体在数据筛选自动化方面展现出潜力,但要实现真正的自主数据研究,仍需进一步探索如何缩小执行与研究之间的鸿沟。未来工作可以探索不同的脚手架设计,以及如何将领域知识更好地融入智能体的探索过程。