LongDS-Bench:長期自主資料分析的失敗研究
現有基準測試大多評估孤立或短期的互動任務,未能測試智慧體在長時間跨度內追蹤不斷變化的分析上下文的能力。為此,研究者提出了LongDS基準,包含68個源自真實Kaggle筆記本的任務,涵蓋2255輪互動,涉及六大領域。評估發現,最佳模型平均準確率僅為48.45%,從早期到後期效能下降近47個百分點,長期錯誤佔失敗原因的52%-69%。額外步驟不一定提升效能,關鍵瓶頸在於維持正確的分析狀態。
近日,一項名為LongDS-Bench的研究揭示了當前AI智慧體在長期、多輪資料分析中的嚴重侷限性。該研究由Kewei Xu等人完成,論文於2026年5月28日提交至arXiv預印本平臺,並將在GitHub上開原始碼與資料(https://github.com/zjunlp/DataMind)。
現實世界的資料分析本質上是迭代的——資料科學家通常需要反覆探索、清洗、建模和驗證,但現有基準測試大多侷限於孤立或短期的互動任務,無法評估智慧體在長時間跨度內追蹤、維護和更新分析上下文的能力。為了填補這一空白,研究者構建了LongDS基準,專門用於測試長期、多輪的資料分析場景。
LongDS包含68個任務,全部基於真實的Kaggle筆記本構建,總共涵蓋2255輪互動。這些任務橫跨地球科學、商業、教育等六個領域,設計圍繞狀態演化模式展開,包括反事實擾動(counterfactual perturbation)、回滾(rollback)和多狀態組合(multi-state composition)等。平均依賴跨度(dependency span)達到11.3輪,意味著智慧體需要長時間保持並正確更新分析狀態,而不僅僅是記憶短期對話。
研究者對五種最先進的模型(包括GPT-4、Claude等)進行了評估,結果令人震驚:最佳模型的平均準確率僅為48.45%,而且效能從早期輪次到後期輪次急劇下降了近47個百分點。進一步分析發現,長期錯誤——即由於無法維持分析狀態而導致的錯誤——佔所有失敗原因的52%至69%。這表明,即使智慧體在初期表現良好,隨著互動輪次增加,其維持分析上下文的能力會急劇衰退。
值得注意的是,增加智慧體的互動步驟(例如允許更多推理或回溯步驟)並不一定能提升效能。研究指出,真正的瓶頸在於維持正確的分析狀態,而非單純增加互動預算或計算資源。這一發現挑戰了當前許多AI系統依賴更多步驟和提示工程來提高準確率的做法,提示未來研究應更關注狀態持久化與上下文壓縮機制。
研究者已將LongDS公開發布,旨在支援更可靠的長期自主資料分析研究。該基準的提出對AI領域具有重要價值:現實中許多資料分析任務都需要多輪協作與狀態跟蹤,例如金融建模、科學實驗設計等,而現有模型在此類任務上的表現遠遠不夠。未來,研究者計劃擴充套件LongDS以涵蓋更多領域和更復雜的互動模式。
總之,LongDS-Bench暴露了當前AI智慧體在長期自主資料分析中的關鍵短板,併為衡量和提升相關能力提供了標準化的測試平臺。這項工作對於推動AI在複雜、長期資料分析任務中的實際應用具有深遠意義。