2026-05-27 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

多輪文本到SQL的內存架構：基準測試與實證研究

該研究引入EnterpriseMem-Bench，一個多輪Text-to-SQL基準測試，包含300個會話和1400輪查詢。評估五種前沿模型發現：無狀態模型在第三輪準確率歸零；內存複雜度不單調提升性能，工作內存佔主導；Claude Sonnet 4.6在SEC EDGAR上出現代際退化；推理模式下Claude錯誤分佈變為單模態。

來源arXiv Computational Linguistics作者: Ravi Kumar Tummalapenta, Suman Addanki

多輪文本到SQL（Text-to-SQL）是企業數據分析的核心任務，它允許用户通過自然語言與數據庫交互，從而降低數據訪問門檻。然而，現有評估大多集中在單輪場景，忽略了實際應用中的連續查詢需求。來自摩根大通LLM Suite工程團隊的研究人員引入了EnterpriseMem-Bench，這是一個專門為多輪Text-to-SQL設計的基準測試，包含300個會話和1400輪查詢，覆蓋三個企業領域：BIRD金融、SEC EDGAR和Northwind。該基準測試提供了確定性真實標籤和每輪內存關鍵標註，使得研究人員能夠精確評估內存機制對多輪查詢的影響。

研究評估了五種前沿模型——GPT-5 mini、GPT-5.2、Claude Sonnet 4.5、Sonnet 4.6和Opus 4.6——在五種內存條件下進行三輪消融實驗，獨立隔離工作內存窗口大小、情節性檢索和語義增強的影響。所有Claude模型均在擴展思維模式下評估，以與GPT推理模型保持對等。研究還提出了內存效益評分（MBS）作為每輪診斷指標。

四個主要發現引人注目：首先，無狀態多輪Text-to-SQL在第三輪時所有五個模型的執行準確率均降至零，即使在使用推理能力的情況下也是如此。這表明簡單的無狀態方法無法勝任多輪任務。其次，內存架構複雜性並不會單調提高準確率——工作內存佔主導，而額外組件會產生從+14到-16個百分點不等的模型和數據集依賴效應。第三，Claude Sonnet 4.6在SEC EDGAR上的表現比Sonnet 4.5差17-33個百分點，這是一種持續存在的代際退化，即使在推理模式下也未改善。第四，在推理模式下，Claude的錯誤分佈變為單模態——每一輪非正確回答都是錯誤結果，而非因無法回答而放棄。

研究團隊已公開發布基準測試、代理和評估代碼，為後續研究提供了重要資源。這項研究不僅揭示了當前模型的侷限性，也為多輪Text-to-SQL系統的內存架構設計提供了指導。