2026-06-01 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

LongDS-Bench：長期自主資料分析的失敗研究

現有基準測試大多評估孤立或短期的互動任務，未能測試智慧體在長時間跨度內追蹤不斷變化的分析上下文的能力。為此，研究者提出了LongDS基準，包含68個源自真實Kaggle筆記本的任務，涵蓋2255輪互動，涉及六大領域。評估發現，最佳模型平均準確率僅為48.45%，從早期到後期效能下降近47個百分點，長期錯誤佔失敗原因的52%-69%。額外步驟不一定提升效能，關鍵瓶頸在於維持正確的分析狀態。

來源arXiv Machine Learning作者: Kewei Xu, Xiaoben Lu, Shuofei Qiao, Zihan Ding, Haoming Xu, Lei Liang, Ningyu Zhang

近日，一項名為LongDS-Bench的研究揭示了當前AI智慧體在長期、多輪資料分析中的嚴重侷限性。該研究由Kewei Xu等人完成，論文於2026年5月28日提交至arXiv預印本平臺，並將在GitHub上開原始碼與資料（https://github.com/zjunlp/DataMind）。

現實世界的資料分析本質上是迭代的——資料科學家通常需要反覆探索、清洗、建模和驗證，但現有基準測試大多侷限於孤立或短期的互動任務，無法評估智慧體在長時間跨度內追蹤、維護和更新分析上下文的能力。為了填補這一空白，研究者構建了LongDS基準，專門用於測試長期、多輪的資料分析場景。

LongDS包含68個任務，全部基於真實的Kaggle筆記本構建，總共涵蓋2255輪互動。這些任務橫跨地球科學、商業、教育等六個領域，設計圍繞狀態演化模式展開，包括反事實擾動（counterfactual perturbation）、回滾（rollback）和多狀態組合（multi-state composition）等。平均依賴跨度（dependency span）達到11.3輪，意味著智慧體需要長時間保持並正確更新分析狀態，而不僅僅是記憶短期對話。

研究者對五種最先進的模型（包括GPT-4、Claude等）進行了評估，結果令人震驚：最佳模型的平均準確率僅為48.45%，而且效能從早期輪次到後期輪次急劇下降了近47個百分點。進一步分析發現，長期錯誤——即由於無法維持分析狀態而導致的錯誤——佔所有失敗原因的52%至69%。這表明，即使智慧體在初期表現良好，隨著互動輪次增加，其維持分析上下文的能力會急劇衰退。

值得注意的是，增加智慧體的互動步驟（例如允許更多推理或回溯步驟）並不一定能提升效能。研究指出，真正的瓶頸在於維持正確的分析狀態，而非單純增加互動預算或計算資源。這一發現挑戰了當前許多AI系統依賴更多步驟和提示工程來提高準確率的做法，提示未來研究應更關注狀態持久化與上下文壓縮機制。

研究者已將LongDS公開發布，旨在支援更可靠的長期自主資料分析研究。該基準的提出對AI領域具有重要價值：現實中許多資料分析任務都需要多輪協作與狀態跟蹤，例如金融建模、科學實驗設計等，而現有模型在此類任務上的表現遠遠不夠。未來，研究者計劃擴充套件LongDS以涵蓋更多領域和更復雜的互動模式。

總之，LongDS-Bench暴露了當前AI智慧體在長期自主資料分析中的關鍵短板，併為衡量和提升相關能力提供了標準化的測試平臺。這項工作對於推動AI在複雜、長期資料分析任務中的實際應用具有深遠意義。