2026-06-04 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

通用智能体能否自动化数据筛选？

新基准Curation-Bench测试通用编码智能体能否自主筛选训练数据。现成智能体在十次迭代内达到强基线水平，但倾向于调整局部策略而非探索新策略族。要求每次迭代引用并改编先前方法的脚手架智能体，自主发现了一种以十分之一数据预算超越基线的策略，表明结构化方法适应是关键。

来源arXiv AI作者: Feiyang Kang, Hanze Li, Adam Nguyen, Mahavir Dabas, Jiaqi W. Ma, Frederic Sala, Dawn Song, Ruoxi Jia

在人工智能领域，训练数据的筛选是至关重要但又极为耗时的工作。研究人员通常需要反复提出、实现、评估和修订数据筛选策略，并依据有噪声的基准反馈进行迭代。针对这一痛点，一项新研究提出了Curation-Bench基准，旨在测试通用编码智能体能否自动化这一数据筛选循环。

Curation-Bench是一个以智能体为中心的基准测试，它固定了模型、训练方法和评估套件，同时赋予智能体命令行权限来检查数据、实现策略、提交到固定的训练/评估流水线并进行修订。在视觉语言指令微调的实例中，现成的智能体能够在十次迭代内达到已发布的强数据选择基线。然而，进一步的分析揭示了智能体存在一个持续的"执行-研究差距"：它们主要调整局部策略变体，而非探索全新的策略族，即使提供了策略指南和论文参考也依然如此。

为了弥合这一差距，研究人员设计了脚手架（scaffold）机制，要求每次迭代必须引用、实例化并改编先前的方法。这种脚手架引导的智能体显著改变了探索行为，从局部调优转向方法引导的探索。令人瞩目的是，脚手架智能体在没有人类设计输入的情况下，自主组合出一种数据选择策略，该策略以十分之一的数据预算超越了强基线。这表明，当前的智能体确实能够运行数据筛选循环，但可靠的数据研究需要结构化的方法适应，而非仅靠开放式提示。

研究的代码和基准已在GitHub上开源，为未来自动化数据筛选的研究提供了重要工具。论文作者认为，虽然通用智能体在数据筛选自动化方面展现出潜力，但要实现真正的自主数据研究，仍需进一步探索如何缩小执行与研究之间的鸿沟。未来工作可以探索不同的脚手架设计，以及如何将领域知识更好地融入智能体的探索过程。