2026-06-01 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

LongDS-Bench：长期自主数据分析的失败研究

现有基准测试大多评估孤立或短期的交互任务，未能测试智能体在长时间跨度内追踪不断变化的分析上下文的能力。为此，研究者提出了LongDS基准，包含68个源自真实Kaggle笔记本的任务，涵盖2255轮交互，涉及六大领域。评估发现，最佳模型平均准确率仅为48.45%，从早期到后期性能下降近47个百分点，长期错误占失败原因的52%-69%。额外步骤不一定提升性能，关键瓶颈在于维持正确的分析状态。

来源arXiv Machine Learning作者: Kewei Xu, Xiaoben Lu, Shuofei Qiao, Zihan Ding, Haoming Xu, Lei Liang, Ningyu Zhang

近日，一项名为LongDS-Bench的研究揭示了当前AI智能体在长期、多轮数据分析中的严重局限性。该研究由Kewei Xu等人完成，论文于2026年5月28日提交至arXiv预印本平台，并将在GitHub上开源代码与数据（https://github.com/zjunlp/DataMind）。

现实世界的数据分析本质上是迭代的——数据科学家通常需要反复探索、清洗、建模和验证，但现有基准测试大多局限于孤立或短期的交互任务，无法评估智能体在长时间跨度内追踪、维护和更新分析上下文的能力。为了填补这一空白，研究者构建了LongDS基准，专门用于测试长期、多轮的数据分析场景。

LongDS包含68个任务，全部基于真实的Kaggle笔记本构建，总共涵盖2255轮交互。这些任务横跨地球科学、商业、教育等六个领域，设计围绕状态演化模式展开，包括反事实扰动（counterfactual perturbation）、回滚（rollback）和多状态组合（multi-state composition）等。平均依赖跨度（dependency span）达到11.3轮，意味着智能体需要长时间保持并正确更新分析状态，而不仅仅是记忆短期对话。

研究者对五种最先进的模型（包括GPT-4、Claude等）进行了评估，结果令人震惊：最佳模型的平均准确率仅为48.45%，而且性能从早期轮次到后期轮次急剧下降了近47个百分点。进一步分析发现，长期错误——即由于无法维持分析状态而导致的错误——占所有失败原因的52%至69%。这表明，即使智能体在初期表现良好，随着交互轮次增加，其维持分析上下文的能力会急剧衰退。

值得注意的是，增加智能体的交互步骤（例如允许更多推理或回溯步骤）并不一定能提升性能。研究指出，真正的瓶颈在于维持正确的分析状态，而非单纯增加交互预算或计算资源。这一发现挑战了当前许多AI系统依赖更多步骤和提示工程来提高准确率的做法，提示未来研究应更关注状态持久化与上下文压缩机制。

研究者已将LongDS公开发布，旨在支持更可靠的长期自主数据分析研究。该基准的提出对AI领域具有重要价值：现实中许多数据分析任务都需要多轮协作与状态跟踪，例如金融建模、科学实验设计等，而现有模型在此类任务上的表现远远不够。未来，研究者计划扩展LongDS以涵盖更多领域和更复杂的交互模式。

总之，LongDS-Bench暴露了当前AI智能体在长期自主数据分析中的关键短板，并为衡量和提升相关能力提供了标准化的测试平台。这项工作对于推动AI在复杂、长期数据分析任务中的实际应用具有深远意义。