2026-06-01 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

LongDS-Bench：長期自主數據分析的失敗研究

現有基準測試大多評估孤立或短期的交互任務，未能測試智能體在長時間跨度內追蹤不斷變化的分析上下文的能力。為此，研究者提出了LongDS基準，包含68個源自真實Kaggle筆記本的任務，涵蓋2255輪交互，涉及六大領域。評估發現，最佳模型平均準確率僅為48.45%，從早期到後期性能下降近47個百分點，長期錯誤佔失敗原因的52%-69%。額外步驟不一定提升性能，關鍵瓶頸在於維持正確的分析狀態。

來源arXiv Machine Learning作者: Kewei Xu, Xiaoben Lu, Shuofei Qiao, Zihan Ding, Haoming Xu, Lei Liang, Ningyu Zhang

近日，一項名為LongDS-Bench的研究揭示了當前AI智能體在長期、多輪數據分析中的嚴重侷限性。該研究由Kewei Xu等人完成，論文於2026年5月28日提交至arXiv預印本平台，並將在GitHub上開源代碼與數據（https://github.com/zjunlp/DataMind）。

現實世界的數據分析本質上是迭代的——數據科學家通常需要反覆探索、清洗、建模和驗證，但現有基準測試大多侷限於孤立或短期的交互任務，無法評估智能體在長時間跨度內追蹤、維護和更新分析上下文的能力。為了填補這一空白，研究者構建了LongDS基準，專門用於測試長期、多輪的數據分析場景。

LongDS包含68個任務，全部基於真實的Kaggle筆記本構建，總共涵蓋2255輪交互。這些任務橫跨地球科學、商業、教育等六個領域，設計圍繞狀態演化模式展開，包括反事實擾動（counterfactual perturbation）、回滾（rollback）和多狀態組合（multi-state composition）等。平均依賴跨度（dependency span）達到11.3輪，意味着智能體需要長時間保持並正確更新分析狀態，而不僅僅是記憶短期對話。

研究者對五種最先進的模型（包括GPT-4、Claude等）進行了評估，結果令人震驚：最佳模型的平均準確率僅為48.45%，而且性能從早期輪次到後期輪次急劇下降了近47個百分點。進一步分析發現，長期錯誤——即由於無法維持分析狀態而導致的錯誤——佔所有失敗原因的52%至69%。這表明，即使智能體在初期表現良好，隨着交互輪次增加，其維持分析上下文的能力會急劇衰退。

值得注意的是，增加智能體的交互步驟（例如允許更多推理或回溯步驟）並不一定能提升性能。研究指出，真正的瓶頸在於維持正確的分析狀態，而非單純增加交互預算或計算資源。這一發現挑戰了當前許多AI系統依賴更多步驟和提示工程來提高準確率的做法，提示未來研究應更關注狀態持久化與上下文壓縮機制。

研究者已將LongDS公開發布，旨在支持更可靠的長期自主數據分析研究。該基準的提出對AI領域具有重要價值：現實中許多數據分析任務都需要多輪協作與狀態跟蹤，例如金融建模、科學實驗設計等，而現有模型在此類任務上的表現遠遠不夠。未來，研究者計劃擴展LongDS以涵蓋更多領域和更復雜的交互模式。

總之，LongDS-Bench暴露了當前AI智能體在長期自主數據分析中的關鍵短板，併為衡量和提升相關能力提供了標準化的測試平台。這項工作對於推動AI在複雜、長期數據分析任務中的實際應用具有深遠意義。