LongDS-Bench:长期自主数据分析的失败研究
现有基准测试大多评估孤立或短期的交互任务,未能测试智能体在长时间跨度内追踪不断变化的分析上下文的能力。为此,研究者提出了LongDS基准,包含68个源自真实Kaggle笔记本的任务,涵盖2255轮交互,涉及六大领域。评估发现,最佳模型平均准确率仅为48.45%,从早期到后期性能下降近47个百分点,长期错误占失败原因的52%-69%。额外步骤不一定提升性能,关键瓶颈在于维持正确的分析状态。
近日,一项名为LongDS-Bench的研究揭示了当前AI智能体在长期、多轮数据分析中的严重局限性。该研究由Kewei Xu等人完成,论文于2026年5月28日提交至arXiv预印本平台,并将在GitHub上开源代码与数据(https://github.com/zjunlp/DataMind)。
现实世界的数据分析本质上是迭代的——数据科学家通常需要反复探索、清洗、建模和验证,但现有基准测试大多局限于孤立或短期的交互任务,无法评估智能体在长时间跨度内追踪、维护和更新分析上下文的能力。为了填补这一空白,研究者构建了LongDS基准,专门用于测试长期、多轮的数据分析场景。
LongDS包含68个任务,全部基于真实的Kaggle笔记本构建,总共涵盖2255轮交互。这些任务横跨地球科学、商业、教育等六个领域,设计围绕状态演化模式展开,包括反事实扰动(counterfactual perturbation)、回滚(rollback)和多状态组合(multi-state composition)等。平均依赖跨度(dependency span)达到11.3轮,意味着智能体需要长时间保持并正确更新分析状态,而不仅仅是记忆短期对话。
研究者对五种最先进的模型(包括GPT-4、Claude等)进行了评估,结果令人震惊:最佳模型的平均准确率仅为48.45%,而且性能从早期轮次到后期轮次急剧下降了近47个百分点。进一步分析发现,长期错误——即由于无法维持分析状态而导致的错误——占所有失败原因的52%至69%。这表明,即使智能体在初期表现良好,随着交互轮次增加,其维持分析上下文的能力会急剧衰退。
值得注意的是,增加智能体的交互步骤(例如允许更多推理或回溯步骤)并不一定能提升性能。研究指出,真正的瓶颈在于维持正确的分析状态,而非单纯增加交互预算或计算资源。这一发现挑战了当前许多AI系统依赖更多步骤和提示工程来提高准确率的做法,提示未来研究应更关注状态持久化与上下文压缩机制。
研究者已将LongDS公开发布,旨在支持更可靠的长期自主数据分析研究。该基准的提出对AI领域具有重要价值:现实中许多数据分析任务都需要多轮协作与状态跟踪,例如金融建模、科学实验设计等,而现有模型在此类任务上的表现远远不够。未来,研究者计划扩展LongDS以涵盖更多领域和更复杂的交互模式。
总之,LongDS-Bench暴露了当前AI智能体在长期自主数据分析中的关键短板,并为衡量和提升相关能力提供了标准化的测试平台。这项工作对于推动AI在复杂、长期数据分析任务中的实际应用具有深远意义。